Gemini 2.5 Flash 공개: AI 비용 600% 절감하는 ‘사고 예산’ 도입

구글, Gemini 2.5 Flash 공개: AI 비용을 600% 절감하는 ‘사고 예산’ 도입

구글이 인공지능 라인업의 주요 업그레이드 버전인 Gemini 2.5 Flash를 출시했습니다. 이 모델은 기업과 개발자가 AI의 “사고” 수행량을 전례 없이 제어할 수 있도록 지원하는 것이 특징입니다. 구글 AI 스튜디오(Google AI Studio)와 Vertex AI를 통해 미리보기로 공개된 이 모델은 경쟁이 치열한 AI 시장에서 경쟁력 있는 가격을 유지하면서 향상된 추론 기능을 제공하려는 전략적 노력의 일환이라고 합니다.

‘사고 예산’이란 무엇일까요?

Gemini 2.5 Flash는 구글이 “사고 예산(thinking budget)”이라고 부르는 메커니즘을 도입했습니다. 개발자는 응답을 생성하기 전에 복잡한 문제를 추론하는 데 얼마만큼의 컴퓨팅 성능을 할당할지 지정할 수 있습니다. 이 접근 방식은 오늘날 AI 시장의 근본적인 긴장, 즉 정교한 추론이 일반적으로 더 높은 지연 시간과 가격으로 이어진다는 점을 해결하는 것을 목표로 합니다.

구글 딥마인드(Google DeepMind)의 Gemini 모델 제품 디렉터인 Tulsee Doshi는 “많은 개발자 사용 사례에서 비용과 지연 시간이 중요하다는 것을 알고 있습니다. 따라서 개발자가 필요에 따라 모델이 수행하는 사고량을 조정할 수 있는 유연성을 제공하고자 합니다.”라고 밝혔습니다.

이러한 유연성은 비용 예측 가능성이 필수적인 비즈니스 애플리케이션에 기술이 점점 더 많이 내장됨에 따라 AI 배포에 대한 구글의 실용적인 접근 방식을 보여줍니다. 구글은 사고 능력을 켜거나 끌 수 있도록 함으로써 “최초의 완전한 하이브리드 추론 모델”이라고 부르는 것을 만들었습니다.

필요한 만큼만 지불하세요: 구글의 새로운 AI 가격 모델

새로운 가격 구조는 오늘날 AI 시스템에서 추론 비용이 얼마나 드는지 보여줍니다. Gemini 2.5 Flash를 사용할 때 개발자는 입력에 대해 백만 토큰당 0.15달러를 지불합니다. 출력 비용은 추론 설정에 따라 크게 달라집니다. 추론을 끄면 백만 토큰당 0.60달러이지만, 추론을 활성화하면 백만 토큰당 3.50달러로 급증합니다.

추론된 출력에 대한 이러한 거의 6배의 가격 차이는 모델이 응답을 생성하기 전에 여러 잠재적 경로와 고려 사항을 평가하는 “사고” 프로세스의 계산 강도를 반영합니다.

Doshi는 “고객은 모델이 생성하는 모든 사고 및 출력 토큰에 대해 비용을 지불합니다. AI 스튜디오 UX에서 응답 전에 이러한 생각을 볼 수 있습니다. API에서는 현재 생각에 대한 액세스를 제공하지 않지만 개발자는 생성된 토큰 수를 확인할 수 있습니다.”라고 말했습니다.

사고 예산은 0에서 24,576 토큰까지 조정할 수 있으며, 고정 할당이 아닌 최대 제한으로 작동합니다. 구글에 따르면 이 모델은 작업의 복잡성에 따라 이 예산을 얼마나 사용할지 지능적으로 결정하여 정교한 추론이 필요하지 않은 경우 리소스를 보존합니다.

Gemini 2.5 Flash의 성능: 주요 AI 모델 대비 벤치마크 결과

구글은 Gemini 2.5 Flash가 대안보다 더 작은 모델 크기를 유지하면서 주요 벤치마크에서 경쟁력 있는 성능을 보여준다고 주장합니다. 추론 및 지식을 평가하도록 설계된 엄격한 테스트인 Humanity’s Last Exam에서 2.5 Flash는 12.1%를 기록하여 Anthropic의 Claude 3.7 Sonnet (8.9%) 및 DeepSeek R1 (8.6%)을 능가했지만 OpenAI의 최근 출시된 o4-mini (14.3%)에는 미치지 못했습니다.

이 모델은 또한 GPQA diamond (78.3%) 및 AIME 수학 시험 (2025년 시험에서 78.0%, 2024년 시험에서 88.0%)과 같은 기술 벤치마크에서 강력한 결과를 보였습니다.

Doshi는 “기업은 비용과 속도에 가장 적합한 가치를 제공하기 때문에 2.5 Flash를 선택해야 합니다. 수학, 멀티모달 추론, 긴 컨텍스트 및 기타 여러 주요 지표에서 경쟁사보다 특히 강력합니다.”라고 말했습니다.

업계 분석가들은 이러한 벤치마크가 구글이 AI 예산을 주시하는 엔터프라이즈 고객에게 반향을 일으킬 수 있는 전략인 가격 이점을 유지하면서 경쟁사와의 성능 격차를 좁히고 있음을 나타낸다고 지적합니다.

똑똑함 vs. 속도: AI가 깊이 생각해야 할 때는 언제일까요?

조정 가능한 추론의 도입은 기업이 AI를 배포하는 방식에서 중요한 진화를 나타냅니다. 기존 모델에서는 사용자가 모델의 내부 추론 프로세스에 대한 가시성이나 제어 기능이 거의 없습니다.

구글의 접근 방식을 통해 개발자는 다양한 시나리오에 맞게 최적화할 수 있습니다. 언어 번역 또는 기본 정보 검색과 같은 간단한 쿼리의 경우 최대 비용 효율성을 위해 사고를 비활성화할 수 있습니다. 수학 문제 해결 또는 미묘한 분석과 같이 다단계 추론이 필요한 복잡한 작업의 경우 사고 기능을 활성화하고 미세 조정할 수 있습니다.

주요 혁신은 쿼리를 기반으로 적절한 추론량을 결정하는 모델의 능력입니다. 구글은 “캐나다에는 몇 개의 주가 있습니까?”와 같은 간단한 질문에는 최소한의 추론이 필요한 반면, 빔 응력 계산에 대한 복잡한 엔지니어링 질문에는 자동으로 더 깊은 사고 프로세스가 필요하다는 예로 이를 설명합니다.

Doshi는 “주요 Gemini 모델에 사고 기능을 통합하고 전반적인 개선을 통해 더 높은 품질의 답변을 얻었습니다. 이러한 개선 사항은 사실성을 측정하는 SimpleQA를 포함한 학술 벤치마크에서 사실입니다.”라고 말했습니다.

구글의 AI 주간: 무료 학생 액세스 및 비디오 생성 기능이 2.5 Flash 출시와 함께 제공됩니다.

Gemini 2.5 Flash의 출시는 구글이 AI 분야에서 공격적인 움직임을 보이는 주간에 이루어졌습니다. 월요일에 회사는 Gemini Advanced 가입자에게 Veo 2 비디오 생성 기능을 출시하여 사용자가 텍스트 프롬프트에서 8초 분량의 비디오 클립을 만들 수 있도록 했습니다. 오늘 2.5 Flash 발표와 함께 구글은 모든 미국 대학생이 2026년 봄까지 Gemini Advanced에 무료로 액세스할 수 있다고 밝혔습니다. 분석가들은 이를 미래 지식 근로자 간의 충성도를 구축하려는 노력으로 해석했습니다.

이러한 발표는 타사 분석에 따르면 Gemini의 월간 사용자 수가 약 2억 5천만~2억 7천 5백만 명으로 추정되는 반면, OpenAI의 ChatGPT가 주간 사용자 수가 8억 명이 넘는 것으로 보고되는 시장에서 경쟁하기 위한 구글의 다각적인 전략을 반영합니다.

비용 효율성과 성능 사용자 정의에 명시적으로 초점을 맞춘 2.5 Flash 모델은 고급 기능에 액세스하면서 AI 배포 비용을 신중하게 관리해야 하는 엔터프라이즈 고객에게 특히 어필하도록 설계된 것으로 보입니다.

Doshi는 “Gemini Flash 2.5로 무엇을 구축하고 있는지, 사고 예산을 어떻게 사용하고 있는지에 대한 개발자의 피드백을 받기 시작하게 되어 매우 기쁩니다.”라고 말했습니다.

미리보기 그 이상: Gemini 2.5 Flash가 성숙함에 따라 기업이 기대할 수 있는 것

이 릴리스는 미리보기로 제공되지만 모델은 이미 개발자가 구축을 시작할 수 있지만 구글은 일반 가용성에 대한 타임라인을 지정하지 않았습니다. 회사는 이 미리보기 단계에서 개발자 피드백을 기반으로 동적 사고 기능을 계속 개선할 것이라고 밝혔습니다.

엔터프라이즈 AI 채택자의 경우 이 릴리스는 AI 배포에 대한 보다 미묘한 접근 방식을 실험할 수 있는 기회를 제공하여 잠재적으로 일상적인 애플리케이션에서 비용을 절감하면서 위험도가 높은 작업에 더 많은 컴퓨팅 리소스를 할당할 수 있습니다.

이 모델은 또한 Gemini 앱을 통해 소비자에게 제공되며, 모델 드롭다운 메뉴에서 이전 2.0 Thinking (Experimental) 옵션을 대체하는 “2.5 Flash (Experimental)”로 표시됩니다. 이러한 소비자 대상 배포는 구글이 앱 생태계를 사용하여 추론 아키텍처에 대한 더 광범위한 피드백을 수집하고 있음을 시사합니다.

AI가 비즈니스 워크플로에 점점 더 많이 내장됨에 따라 사용자 정의 가능한 추론을 통한 구글의 접근 방식은 비용 최적화 및 성능 조정이 원시 기능만큼 중요해지는 성숙한 시장을 반영하여 생성적 AI 기술의 상용화에서 새로운 단계를 알립니다.

위로 스크롤