앤트로픽 클로드 오푸스 4.5: 인간 능가하는 AI 엔지니어

최근 앤트로픽(Anthropic)이 자사의 가장 강력한 인공지능 모델인 클로드 오푸스 4.5(Claude Opus 4.5)를 공개하며 인공지능(AI) 업계에 큰 파장을 일으키고 있습니다. 이 모델은 소프트웨어 엔지니어링 작업에서 최고 수준의 성능을 자랑하며, 가격은 약 3분의 2 수준으로 대폭 인하되어 경쟁사인 오픈AI(OpenAI)와 구글(Google)과의 경쟁을 더욱 심화시키고 있어요.

벤처비트(VentureBeat)가 검토한 자료에 따르면, 클로드 오푸스 4.5는 앤트로픽의 가장 어려운 내부 엔지니어링 평가에서 회사 역사상 어떤 인간 지원자보다 높은 점수를 기록했습니다. 이는 AI 시스템의 급속한 발전과 함께, 이 기술이 화이트칼라 직업군을 어떻게 변화시킬지에 대한 질문을 던지고 있습니다.

아마존(Amazon)의 지원을 받는 앤트로픽은 클로드 오푸스 4.5의 가격을 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러로 책정했습니다. 이는 올해 초 출시된 이전 모델인 클로드 오푸스 4.1(Claude Opus 4.1)의 15달러와 75달러에서 크게 낮아진 가격입니다. 이러한 움직임은 최첨단 AI 기능을 더 많은 개발자와 기업이 이용할 수 있도록 하면서, 경쟁사들에게 성능과 가격 모두에서 압박을 가하고 있습니다.

앤트로픽의 개발자 관계 책임자인 알렉스 앨버트(Alex Albert)는 벤처비트와의 독점 인터뷰에서 “이 모델이 사람들이 원하는 방식으로 작동하도록 하는 것이 중요합니다. 우리의 초점은 클로드가 여러분의 업무에서 하기 싫은 일들을 더 잘 돕도록 하는 방법에 있습니다”라고 말했습니다.

이번 발표는 앤트로픽이 점점 더 치열해지는 AI 시장에서 입지를 유지하기 위해 노력하는 가운데 나왔습니다. 오픈AI는 최근 GPT-5.1과 장시간 자율적으로 작업할 수 있는 전문 코딩 모델 코덱스 맥스(Codex Max)를 출시했습니다. 구글은 지난주 제미나이 3(Gemini 3)를 공개했으며, 이는 오픈AI조차도 구글의 발전에 대해 우려를 표할 정도였다고 합니다.

오푸스 4.5, 실제 작업에서 향상된 판단력 보여줘요

앤트로픽의 내부 테스트 결과, 클로드 오푸스 4.5는 추론 능력에서 질적인 도약을 이뤘다고 회사는 설명합니다. 이 모델은 실제 소프트웨어 엔지니어링 작업을 측정하는 SWE-벤치 베리파이드(SWE-bench Verified) 벤치마크에서 80.9%의 정확도를 달성하여, 소네트 4.5(Sonnet 4.5)의 77.2%와 구글의 제미나이 3 프로(Gemini 3 Pro)의 76.2%를 능가하는 성능을 보였습니다.

하지만 기술적인 벤치마크가 전부는 아닙니다. 앨버트는 직원 테스터들이 모델이 다양한 작업에서 향상된 판단력과 직관을 보여준다고 일관되게 보고했다고 말했습니다. 그는 이를 모델이 실제 상황에서 무엇이 중요한지 이해하는 감각을 개발한 것으로 묘사했습니다.

앨버트는 “모델이 그냥 이해하는 것 같아요. 많은 실제 상황에서 일종의 직관과 판단력을 개발했는데, 이는 이전 모델들과 비교했을 때 질적으로 큰 도약처럼 느껴집니다”라고 언급했습니다.

그는 자신의 업무 방식을 예로 들었습니다. 이전에는 AI 모델에게 정보를 수집하도록 요청했지만, 그 합성이나 우선순위 지정은 신뢰하기 어려웠다고 합니다. 하지만 오푸스 4.5를 사용하면서, 그는 더 완전한 작업을 위임하고, 슬랙(Slack) 및 내부 문서와 연결하여 자신의 우선순위에 맞는 일관된 요약을 생성하고 있습니다.

오푸스 4.5, 회사에서 가장 어려운 엔지니어링 테스트에서 모든 인간 지원자 능가

이 모델이 앤트로픽의 내부 엔지니어링 평가에서 보여준 성능은 주목할 만한 이정표입니다. 잠재적인 성능 엔지니어링 지원자를 위해 고안된 이 재택 시험은 2시간이라는 제한 시간 내에 기술 능력과 판단력을 평가하도록 설계되었습니다.

병렬 테스트 시간 컴퓨팅(parallel test-time compute)이라는 기술을 사용하여, 모델의 여러 시도를 통합하고 최상의 결과를 선택한 결과, 오푸스 4.5는 이 테스트를 치른 어떤 인간 지원자보다 높은 점수를 기록했습니다. 시간 제한 없이 클로드 코드(Claude Code) 내에서 사용했을 때는 역대 최고의 인간 지원자와 동일한 성능을 보였습니다.

회사는 이 테스트가 협업, 의사소통, 수년간의 경험을 통해 개발되는 직관과 같은 다른 중요한 전문 기술을 측정하지는 않는다고 인정했습니다. 그럼에도 불구하고 앤트로픽은 이 결과가 “AI가 엔지니어링 직업을 어떻게 변화시킬지에 대한 질문을 제기한다”고 말했습니다.

앨버트는 이 발견의 중요성을 강조했습니다. 그는 “이것은 아마도 이러한 모델이 업무 환경과 우리의 직업에 얼마나 유용할 수 있는지에 대한 일종의 신호라고 생각합니다. 물론 이것은 엔지니어링 작업이었고, 다른 분야에 비해 모델이 엔지니어링 분야에서 상대적으로 앞서 있다고 말할 수 있지만, 이는 정말 중요한 신호라고 생각합니다”라고 덧붙였습니다.

효율성 대폭 개선으로 주요 벤치마크에서 토큰 사용량 최대 76% 절감

앤트로픽은 순수한 성능 외에도 효율성 개선이 클로드 오푸스 4.5를 시장에서 차별화할 것이라고 기대하고 있습니다. 회사는 이 모델이 이전 모델과 비교하여 유사하거나 더 나은 결과를 달성하기 위해 AI 시스템이 처리하는 텍스트 단위인 토큰을 훨씬 적게 사용한다고 말합니다.

앤트로픽에 따르면, 중간 노력 수준에서 오푸스 4.5는 이전 소네트 4.5 모델의 SWE-벤치 베리파이드 최고 점수와 일치하면서도 출력 토큰을 76% 적게 사용합니다. 최고 노력 수준에서는 오푸스 4.5가 소네트 4.5 성능을 4.3% 포인트 초과하면서도 여전히 토큰을 48% 적게 사용합니다.

개발자에게 더 많은 제어권을 제공하기 위해 앤트로픽은 사용자가 각 작업에 모델이 적용하는 계산 작업량을 조정할 수 있는 “노력 매개변수(effort parameter)”를 도입했습니다. 이는 성능과 지연 시간, 비용 사이의 균형을 맞추는 데 도움이 됩니다.

기업 고객들은 이러한 효율성 주장을 조기에 검증했습니다. 클라우드 기반 코딩 플랫폼인 리플릿(Replit)의 사장 미셸 카타스타(Michele Catasta)는 벤처비트에 보낸 성명에서 “오푸스 4.5는 우리의 내부 벤치마크에서 소네트 4.5와 경쟁 모델을 능가하며, 동일한 문제를 해결하는 데 더 적은 토큰을 사용합니다. 대규모로 적용될 때 그 효율성은 더욱 커집니다”라고 말했습니다.

깃허브(GitHub)의 최고 제품 책임자 마리오 로드리게스(Mario Rodriguez)는 초기 테스트 결과 오푸스 4.5가 “내부 코딩 벤치마크를 능가하면서 토큰 사용량을 절반으로 줄였으며, 특히 코드 마이그레이션 및 코드 리팩토링과 같은 작업에 매우 적합하다”고 밝혔습니다.

초기 고객들, 경험을 통해 학습하고 스스로 기술을 개선하는 AI 에이전트 보고

초기 고객들이 보여준 가장 놀라운 기능 중 하나는 앤트로픽이 “자기 개선 에이전트(self-improving agents)”라고 부르는 것으로, 반복적인 학습을 통해 스스로 성능을 개선할 수 있는 AI 시스템입니다.

일본의 전자상거래 및 인터넷 기업인 라쿠텐(Rakuten)은 클로드 오푸스 4.5를 사무 자동화 작업에 테스트했습니다. 라쿠텐의 비즈니스 AI 총괄 매니저인 카지 유스케(Yusuke Kaji)는 “우리 에이전트들은 스스로 능력을 자율적으로 개선할 수 있었고, 다른 모델들이 10번의 반복 후에도 그 품질을 따라잡지 못하는 동안 4번의 반복 만에 최고 성능을 달성했습니다”라고 말했습니다.

앨버트는 모델이 자체 가중치(AI 시스템의 동작을 정의하는 근본적인 매개변수)를 업데이트하는 것이 아니라, 문제를 해결하는 데 사용하는 도구와 접근 방식을 반복적으로 개선하는 것이라고 설명했습니다. 그는 “작업에 대한 기술을 반복적으로 개선하고 있었고, 더 나은 성능을 얻기 위해 기술을 최적화하려고 노력하는 것을 보았습니다”라고 말했습니다.

이러한 능력은 코딩을 넘어섭니다. 앨버트는 앤트로픽이 전문 문서, 스프레드시트, 프레젠테이션 제작에서 상당한 개선을 관찰했다고 말했습니다. 앨버트는 “그들은 이것이 모델 세대 간에 본 가장 큰 도약이라고 말합니다. 소네트 4.5에서 오푸스 4.5로 넘어가는 것이 과거 어떤 두 모델 사이의 도약보다도 컸습니다”라고 전했습니다.

금융 모델링 회사인 펀더멘탈 리서치 랩스(Fundamental Research Labs)는 공동 창립자 니코 크리스티(Nico Christie)에 따르면 “내부 평가에서 정확도가 20% 향상되었고, 효율성은 15% 증가했으며, 한때 불가능해 보였던 복잡한 작업들이 가능해졌다”고 보고했습니다.

엑셀 사용자, 크롬 워크플로우, 채팅 길이 제한 제거를 위한 새로운 기능

모델 출시와 함께 앤트로픽은 기업 사용자를 위한 다양한 제품 업데이트를 발표했습니다. 클로드 포 엑셀(Claude for Excel)은 피벗 테이블, 차트, 파일 업로드에 대한 새로운 지원과 함께 맥스(Max), 팀(Team), 엔터프라이즈(Enterprise) 사용자에게 일반적으로 제공되기 시작했습니다. 크롬(Chrome) 브라우저 확장 프로그램은 이제 모든 맥스 사용자가 사용할 수 있습니다.

아마도 가장 중요한 것은 앤트로픽이 “무한 채팅(infinite chats)” 기능을 도입했다는 점입니다. 이 기능은 대화가 길어질수록 이전 대화 부분을 자동으로 요약하여 컨텍스트 창 제한을 없앱니다. 앨버트는 “클로드 AI 제품 내에서 압축 및 우리가 수행하는 일부 메모리 기능 덕분에 사실상 무한한 컨텍스트 창을 얻을 수 있습니다”라고 설명했습니다.

개발자를 위해 앤트로픽은 클로드가 함수를 직접 호출하는 코드를 작성하고 실행할 수 있도록 하는 “프로그래밍 방식 도구 호출(programmatic tool calling)”을 출시했습니다. 클로드 코드(Claude Code)는 업데이트된 “계획 모드(Plan Mode)”를 얻었으며, 연구 미리 보기로 데스크톱에서 사용할 수 있게 되어 개발자들이 여러 AI 에이전트 세션을 병렬로 실행할 수 있게 되었습니다.

오픈AI, 구글과의 경쟁 심화로 시장이 뜨거워져요

앤트로픽은 2025년 1분기에 연간 매출 20억 달러를 달성하여 이전 기간의 10억 달러에서 두 배 이상 증가했습니다. 연간 10만 달러 이상을 지출하는 고객 수는 전년 대비 8배 증가했습니다.

오푸스 4.5의 빠른 출시는 10월의 하이쿠 4.5(Haiku 4.5)와 9월의 소네트 4.5에 이어 불과 몇 주 만에 이루어졌으며, 이는 더 넓은 산업 역학을 반영합니다. 오픈AI는 2025년 내내 여러 GPT-5 변형을 출시했으며, 11월에는 최대 24시간 동안 자율적으로 작업할 수 있는 전문 코덱스 맥스 모델을 선보였습니다. 구글은 몇 달간의 개발 끝에 11월 중순에 제미나이 3를 출시했습니다.

앨버트는 앤트로픽의 가속화된 개발 속도가 클로드를 사용하여 자체 개발을 가속화한 덕분이라고 설명했습니다. 그는 “실제 제품 구축 측면이든 모델 연구 측면이든 클로드 자체의 많은 도움과 속도 향상을 보고 있습니다”라고 말했습니다.

오푸스 4.5의 가격 인하는 마진에 압력을 가할 수 있지만, 잠재적으로 시장을 확장할 수 있습니다. 앨버트는 “많은 스타트업들이 이 모델을 제품에 훨씬 더 많이 통합하고 주요 기능으로 내세울 것으로 예상합니다”라고 말했습니다.

그러나 선도적인 AI 연구소들은 컴퓨팅 인프라와 연구 인재에 막대한 투자를 하고 있어 여전히 수익성을 확보하기 어렵습니다. AI 시장은 10년 안에 1조 달러 이상의 매출을 기록할 것으로 예상되지만, 모델이 복잡한 지식 작업을 의미 있게 자동화할 수 있는 수준에 도달했음에도 불구하고 단일 공급업체가 지배적인 시장 지위를 확립하지는 못했습니다.

AI 기반 코드 편집기 커서(Cursor)의 CEO 마이클 트루엘(Michael Truell)은 오푸스 4.5를 “커서 내에서 이전 클로드 모델보다 눈에 띄게 개선되었으며, 어려운 코딩 작업에서 향상된 가격과 지능을 제공한다”고 평가했습니다. AI 코딩 스타트업 코그니션(Cognition)의 CEO 스콧 우(Scott Wu)는 이 모델이 “가장 어려운 평가에서 더 강력한 결과를 제공하고 30분 자율 코딩 세션 내내 일관된 성능을 보여준다”고 말했습니다.

기업과 개발자에게 이러한 경쟁은 빠르게 향상되는 기능과 하락하는 가격으로 이어집니다. 하지만 AI 성능이 기술 작업에서 인간 전문가 수준에 근접하고 때로는 초과함에 따라, 전문 업무에 대한 기술의 영향은 더 이상 이론적이지 않게 됩니다.

엔지니어링 시험 결과와 AI의 궤적에 대해 질문을 받았을 때, 앨버트는 단도직입적으로 “이는 정말 중요한 신호라고 생각합니다”라고 답했습니다.

위로 스크롤