SEARCH-R1: LLM에 검색 엔진을 직접 통합하여 추론 능력 강화

RAG를 넘어서: SEARCH-R1, 추론 모델에 검색 엔진을 직접 통합하다

최근 대규모 언어 모델(LLM, Large Language Model)은 추론 능력에서 놀라운 발전을 보여주고 있습니다. 하지만 LLM이 학습하지 않은 외부 데이터를 정확하게 참조하고 활용하는 능력은 상대적으로 뒤처져 있는 상황입니다. 특히 검색 엔진에서 최신 데이터를 필요로 하는 정보 집약적인 시나리오에서 LLM을 사용할 때 이러한 문제가 두드러집니다.

하지만 최근 긍정적인 개선책이 등장했습니다. 일리노이 대학교 어바나-샴페인(University of Illinois at Urbana-Champaign)과 매사추세츠 대학교 애머스트(University of Massachusetts Amherst) 연구진이 발표한 논문에서 소개된 SEARCH-R1이라는 기술은 LLM이 검색 쿼리를 생성하고 검색 엔진 검색을 추론 과정에 원활하게 통합하도록 훈련합니다.

기업들이 이러한 새로운 모델을 애플리케이션에 통합할 방법을 모색하는 가운데, SEARCH-R1과 같은 기술은 외부 데이터 소스에 의존하는 새로운 추론 능력을 발휘할 수 있도록 해줍니다.

LLM과 검색 엔진 통합의 어려움

검색 엔진은 LLM 애플리케이션에 최신 외부 지식을 제공하는 데 매우 중요합니다. 검색 엔진을 LLM과 통합하는 주요 방법은 RAG(Retrieval-Augmented Generation)와 프롬프트 엔지니어링 또는 모델 미세 조정을 통해 구현되는 도구 사용입니다.

하지만 두 가지 방법 모두 추론 모델에는 적합하지 않은 제한 사항이 있습니다. RAG는 검색 정확도가 떨어지고 추론 작업에 필수적인 다중 턴, 다중 쿼리 검색을 수행할 수 없는 경우가 많습니다. 프롬프팅 기반 도구 사용은 일반화에 어려움을 겪는 경우가 많고, 훈련 기반 접근 방식은 대규모의 주석 처리된 검색 및 추론 상호 작용 데이터 세트가 필요한데, 이는 대규모로 생성하기 어렵습니다.

SEARCH-R1의 등장

SEARCH-R1은 LLM이 별도의 검색 단계를 거치는 것이 아니라 추론 과정 중에 검색 엔진과 상호 작용할 수 있도록 합니다. SEARCH-R1은 검색 엔진을 LLM 환경의 일부로 정의하여 모델이 토큰 생성을 검색 엔진 결과와 원활하게 통합할 수 있도록 합니다.

연구진은 반복적인 추론 및 검색을 지원하도록 SEARCH-R1을 설계했습니다. 모델은 생각, 검색, 정보 및 답변 세그먼트에 대해 별도의 토큰 세트를 생성하도록 훈련됩니다. 즉, 모델이 추론 과정(태그로 표시됨)에서 외부 정보가 필요하다고 판단하면 검색 쿼리가 포함된 시퀀스를 생성합니다. 그런 다음 쿼리는 검색 엔진으로 전달되고 결과는 세그먼트의 컨텍스트 창에 삽입됩니다. 그런 다음 모델은 추가된 컨텍스트를 사용하여 추론을 계속하고 준비가 되면 세그먼트에서 결과를 생성합니다.

이 구조를 통해 모델은 문제에 대해 추론하고 새로운 정보를 얻을 때 검색 엔진을 여러 번 호출할 수 있습니다.

강화 학습의 활용

LLM이 검색 쿼리를 추론 체인과 번갈아 가며 사용하도록 훈련하는 것은 어려운 일입니다. 프로세스를 단순화하기 위해 연구진은 SEARCH-R1이 순수 강화 학습(RL, Reinforcement Learning)을 통해 모델을 훈련하도록 설계했습니다. 여기서 모델은 사람이 생성한 데이터의 지침 없이 추론 및 검색 도구 사용을 탐색하도록 남겨집니다.

SEARCH-R1은 모델이 최종 응답의 정확성을 기준으로만 평가되는 “결과 기반 보상 모델”을 사용합니다. 이를 통해 모델의 추론 프로세스를 검증하는 복잡한 보상 모델을 만들 필요가 없습니다.

이는 DeepSeek-R1-Zero에서 사용된 것과 동일한 접근 방식으로, 모델에 작업이 주어지고 결과에 따라 판단됩니다. 순수 RL을 사용하면 수동으로 주석 처리된 예제(지도 학습 미세 조정)의 대규모 데이터 세트를 만들 필요가 없습니다.

연구진은 논문에서 “SEARCH-R1은 주로 검색 증강 RL 훈련을 도입하여 검색 기반 의사 결정을 강화함으로써 파라메트릭 추론에 초점을 맞춘 DeepSeek-R1의 확장으로 볼 수 있습니다.”라고 밝혔습니다.

SEARCH-R1의 실제 활용

연구진은 Qwen-2.5와 Llama-3.2의 기본 및 지시 버전을 미세 조정하고 단일 턴 및 다중 홉 검색이 필요한 다양한 추론 작업을 포함하는 7개의 벤치마크에서 평가하여 SEARCH-R1을 테스트했습니다. 그들은 SEARCH-R1을 다양한 기준선과 비교했습니다. Chain-of-Thought(CoT) 추론을 사용한 직접 추론, RAG를 사용한 추론, 도구 사용을 위한 지도 학습 미세 조정 등이 있습니다.

SEARCH-R1은 기준선 방법보다 상당히 우수한 성능을 보였습니다. 또한 RL에서 훈련되었지만 검색 검색이 없는 추론 모델보다 성능이 뛰어납니다. 연구진은 “LLM 추론에 검색을 통합하면 관련 외부 지식에 액세스할 수 있어 전반적인 성능이 향상되므로 이는 예상과 일치합니다.”라고 밝혔습니다.

SEARCH-R1은 다양한 모델 제품군과 기본 및 지시 조정된 변형 모두에 효과적이므로 결과 기반 보상을 통한 RL이 순수 추론 시나리오 외에도 유용할 수 있음을 시사합니다. 연구진은 GitHub에서 SEARCH-R1 코드를 공개했습니다.

SEARCH-R1이 검색 쿼리를 자율적으로 생성하고 실시간 정보를 추론에 통합하는 기능은 엔터프라이즈 애플리케이션에 상당한 영향을 미칠 수 있습니다. 고객 지원, 지식 관리 및 데이터 분석과 같은 영역에서 LLM 기반 시스템의 정확성과 신뢰성을 향상시킬 수 있습니다. LLM이 변화하는 정보에 동적으로 적응할 수 있도록 지원함으로써 SEARCH-R1은 기업이 더욱 지능적이고 대응력이 뛰어난 AI 솔루션을 구축하는 데 도움이 될 수 있습니다. 이 기능은 끊임없이 변화하는 데이터에 액세스해야 하고 답변을 찾는 데 여러 단계가 필요한 애플리케이션에 매우 유용할 수 있습니다.

또한 DeepSeek-R1 출시 이후 등장한 새로운 강화 학습 패러다임의 잠재력을 아직 완전히 탐구하지 못했다는 점을 시사합니다.

위로 스크롤