젠스파크 슈퍼 에이전트 공개: 범용 AI 에이전트 경쟁 점화

젠스파크의 슈퍼 에이전트, 범용 AI 에이전트 경쟁에 불을 지피다

최근 범용 인공지능 에이전트 분야가 더욱 치열해지고 경쟁이 심화되고 있다고 해요.

이번 주, 팔로알토에 위치한 스타트업 젠스파크(Genspark)에서 슈퍼 에이전트(Super Agent)라는 이름의 자율 시스템을 공개했습니다. 이 시스템은 다양한 실제 작업을 처리하도록 설계되었으며, 실감 나는 합성 음성을 사용하여 식당에 전화하는 기능까지 갖추고 있어 놀라움을 자아내고 있습니다.

AI 경쟁의 새로운 전선

이번 젠스파크의 발표는 누가 최초로 신뢰성 있고 유연하며 진정으로 유용한 범용 에이전트를 구축할 것인가라는 AI 경쟁의 중요한 새로운 전선에 불을 붙였습니다. 더 나아가, 이것이 기업에 어떤 의미를 가질지에 대한 질문도 제기되고 있습니다.

젠스파크의 슈퍼 에이전트 출시는 중국계 스타트업인 마누스(Manus)가 여행 예약, 이력서 심사, 주식 분석과 같은 비동기 클라우드 작업을 완료하는 능력으로 주목받은 지 불과 3주 만에 이루어졌습니다. 마누스는 현재 대부분의 에이전트와 달리 사용자의 직접적인 개입 없이도 이러한 작업을 수행할 수 있다고 합니다.

슈퍼 에이전트의 세 가지 핵심 요소

젠스파크는 여기서 한 걸음 더 나아가 슈퍼 에이전트가 9개의 서로 다른 대규모 언어 모델(LLM, Large Language Model), 80개 이상의 도구, 10개 이상의 독점 데이터 세트를 기반으로 구축되었다고 주장합니다. 이 모든 요소가 협력하여 복잡한 워크플로우를 처리하고 완전한 결과를 제공하며, 기존의 챗봇을 훨씬 뛰어넘는 수준이라고 하네요.

젠스파크의 데모 영상에서는 슈퍼 에이전트가 5일간의 샌디에이고 여행을 계획하고, 명소 간의 도보 거리를 계산하고, 대중교통 옵션을 파악한 다음, 음성 통화 에이전트를 사용하여 음식 알레르기 및 좌석 선호도를 고려하여 식당을 예약하는 모습을 보여줍니다. 또 다른 데모에서는 레시피 단계, 비디오 장면 및 오디오 오버레이를 생성하여 요리 비디오 릴을 만드는 모습도 시연했습니다. 세 번째 데모에서는 최근 정치 스캔들을 패러디한 사우스 파크 스타일의 애니메이션 에피소드를 제작하는 모습도 보여주었습니다.

이러한 기능들이 소비자에게 초점을 맞춘 것처럼 보일 수 있지만, 실제로는 기술이 창의적인 생성과 실행 사이의 경계를 허물면서 다중 모드, 다단계 작업 자동화로 나아가고 있음을 보여주는 것이라고 합니다.

젠스파크의 공동 창립자인 에릭 징(Eric Jing)은 “이러한 실제 문제를 해결하는 것은 생각보다 훨씬 어렵지만, 우리가 이룬 진전에 대해 기쁘게 생각한다”라고 말했습니다.

슈퍼 에이전트의 차별점

슈퍼 에이전트의 매력적인 기능 중 하나는 사고 과정을 명확하게 시각화하여 각 단계를 추론하는 방법, 사용하는 도구 및 이유를 추적한다는 점입니다. 이러한 논리가 실시간으로 전개되는 것을 지켜보면 시스템이 블랙박스처럼 느껴지지 않고 협업 파트너처럼 느껴지게 합니다. 또한 기업 개발자가 자체 AI 시스템에 유사한 추적 가능한 추론 경로를 구축하여 애플리케이션을 더욱 투명하고 신뢰할 수 있게 만들도록 영감을 줄 수도 있습니다.

슈퍼 에이전트는 또한 매우 쉽게 사용해 볼 수 있다는 장점이 있습니다. 별도의 기술적인 설정 없이 브라우저에서 원활하게 실행됩니다. 젠스파크는 사용자가 개인 자격 증명을 요구하지 않고도 테스트를 시작할 수 있도록 지원합니다. 반면, 마누스는 여전히 지원자가 대기자 명단에 가입하고 소셜 계정 및 기타 개인 정보를 공개해야 하므로 실험에 대한 진입 장벽이 높습니다.

젠스파크는 과거 클로드(Claude) 기반의 재무 보고서를 출시했을 때도 주목을 받았었습니다. 이 회사는 최소 1억 6천만 달러의 투자를 유치했으며, 미국과 싱가포르 기반 투자자들의 지원을 받고 있다고 합니다.

젠스파크의 성공 비결

젠스파크의 접근 방식은 오랜 AI 엔지니어링 과제인 대규모 도구 오케스트레이션을 해결한다는 점에서 두드러집니다.

대부분의 현재 에이전트는 몇 개 이상의 외부 API 또는 도구를 처리할 때 제대로 작동하지 못합니다. 젠스파크의 슈퍼 에이전트는 모델 라우팅 및 검색 기반 선택을 사용하여 작업에 따라 도구와 하위 모델을 동적으로 선택함으로써 이 문제를 더 잘 관리하는 것으로 보입니다.

이러한 전략은 LLM이 광범위하고 진화하는 도구 세트를 사용하는 방식을 개선하는 중국 소주대학교의 새로운 프레임워크인 CoTools와 유사합니다. 프롬프트 엔지니어링이나 엄격한 미세 조정에 크게 의존하는 기존 방식과 달리 CoTools는 기본 모델을 “고정” 상태로 유지하면서 더 작은 구성 요소를 훈련하여 도구를 효율적으로 판단, 검색 및 호출합니다.

또 다른 요인은 MCP(Model Context Protocol)입니다. MCP는 에이전트가 단계별로 더 풍부한 도구 및 메모리 컨텍스트를 전달할 수 있도록 하는 잘 알려지지 않았지만 점점 더 많이 채택되는 표준입니다. 젠스파크의 독점 데이터 세트와 결합된 MCP는 에이전트가 다른 대안보다 더 “조종 가능”하게 보이는 이유 중 하나일 수 있습니다.

마누스와의 비교

젠스파크가 범용 에이전트를 홍보하는 최초의 스타트업은 아닙니다. 중국 기반 회사인 모니카(Monica)가 지난달 출시한 마누스는 다단계 작업을 완료하기 위해 웹 브라우저, 코드 편집기 또는 스프레드시트 엔진과 같은 도구를 자율적으로 실행하는 다중 에이전트 시스템으로 큰 반향을 일으켰습니다.

마누스의 앤트로픽(Anthropic)의 클로드와 같은 웹 도구 및 LLM을 포함한 오픈 소스 부품의 효율적인 통합은 놀라웠습니다. 독점 모델 스택을 구축하지 않았음에도 불구하고 에이전트의 실제 작업 자동화를 평가하기 위해 설계된 합성 테스트인 GAIA 벤치마크에서 OpenAI보다 뛰어난 성능을 보였습니다.

그러나 젠스파크는 독점 구성 요소와 더 광범위한 도구 범위를 포함하는 아키텍처를 사용하여 GAIA에서 마누스의 86%보다 높은 87.8%를 획득했다고 주장합니다.

대형 기술 기업들의 소극적인 태도

한편, 미국에 본사를 둔 대형 AI 기업들은 신중한 태도를 보이고 있습니다.

마이크로소프트(Microsoft)의 주요 AI 에이전트 제품인 코파일럿 스튜디오(Copilot Studio)는 엑셀(Excel) 및 아웃룩(Outlook)과 같은 엔터프라이즈 앱과 밀접하게 연계된 미세 조정된 수직 에이전트에 초점을 맞추고 있습니다. OpenAI의 에이전트 SDK는 빌딩 블록을 제공하지만 자체적인 완전한 기능을 갖춘 범용 에이전트를 제공하지는 않습니다. 아마존(Amazon)이 최근 발표한 노바 액트(Nova Act)는 개발자 우선 접근 방식을 취하여 SDK를 통해 원자적 브라우저 기반 작업을 제공하지만 노바 LLM 및 클라우드 인프라와 긴밀하게 연결되어 있습니다.

이러한 접근 방식은 더욱 모듈화되고 안전하며 엔터프라이즈 사용을 명확하게 목표로 합니다. 그러나 젠스파크의 데모에서 보여준 야망이나 자율성이 부족합니다.

한 가지 이유는 위험 회피일 수 있습니다. 구글(Google)이나 마이크로소프트의 범용 에이전트가 잘못된 항공편을 예약하거나 음성 통화에서 이상한 말을 하는 경우 평판 비용이 높을 수 있습니다. 또한 이러한 회사는 자체 모델 생태계에 갇혀 있어 다중 모델 오케스트레이션을 실험할 수 있는 유연성이 제한됩니다.

반면, 젠스파크와 같은 스타트업은 LLM을 혼합하고 매칭하고 빠르게 움직일 수 있는 자유가 있습니다.

기업은 관심을 가져야 할까요?

대부분의 기업은 저녁 식사 예약을 하거나 풍자 만화를 제작하기 위해 범용 에이전트가 필요하지 않습니다. 그러나 규정 준수 데이터를 표면화하고 포맷하거나, 고객 온보딩을 오케스트레이션하거나, 여러 형식으로 콘텐츠를 제작하는 것과 같은 도메인별 다단계 작업을 처리할 수 있는 에이전트가 곧 필요할 수 있습니다.

이러한 맥락에서 젠스파크의 작업은 더욱 관련성이 높아집니다. 범용 에이전트가 더욱 원활하고 자율적으로 작동하고 음성, 메모리 및 외부 도구를 통합할수록 기존 SaaS 애플리케이션 및 RPA 플랫폼과 경쟁할 수 있습니다.

또한 더 가벼운 인프라로 그렇게 하고 있습니다. 예를 들어, 젠스파크는 에이전트가 “매우 조종 가능”하며 마케터, 교사, 채용 담당자, 디자이너 및 분석가가 최소한의 설정으로 사용할 수 있다고 주장합니다.

범용 에이전트 시대는 더 이상 가설이 아닙니다. 이미 현실이 되었으며 빠르게 진화하고 있습니다.

위로 스크롤