구글(Google)이 기업용 인공지능(AI) 시장에 새로운 바람을 불어넣고 있어요. 최첨단 제미나이 3 프로(Gemini 3 Pro)에 버금가는 성능을 자랑하면서도 훨씬 저렴한 비용과 빠른 속도를 제공하는 ‘제미나이 3 플래시(Gemini 3 Flash)’를 새롭게 출시했습니다. 이 모델은 지난달 공개된 제미나이 3 프로, 제미나이 3 딥 씽크(Gemini 3 Deep Think), 제미나이 에이전트(Gemini Agent)와 함께 구글의 제미나이 3 시리즈를 더욱 풍성하게 만들고 있습니다.
기업을 위한 속도와 효율성
제미나이 3 플래시는 현재 제미나이 엔터프라이즈(Gemini Enterprise), 구글 안티그래비티(Google Antigravity), 제미나이 CLI(Gemini CLI), AI 스튜디오(AI Studio)에서 사용할 수 있으며, 버텍스 AI(Vertex AI)에서는 미리보기로 제공됩니다. 이 모델은 거의 실시간으로 정보를 처리하며 빠르고 반응성이 뛰어난 에이전트 기반 애플리케이션 구축을 돕는다고 해요.
구글은 블로그 게시물을 통해 제미나이 3 플래시가 “개발자와 기업이 이미 선호하는 모델 시리즈를 기반으로 하며, 품질 저하 없이 속도를 요구하는 고빈도 워크플로우에 최적화되었다”고 밝혔습니다. 또한, 구글 검색(Google Search)의 AI 모드와 제미나이 애플리케이션의 기본 모델로도 사용되고 있습니다.
제미나이 팀의 제품 관리 선임 이사인 툴시 도시(Tulsee Doshi)는 “속도와 규모가 지능을 희생해야 하는 것은 아님을 보여준다”고 강조했어요. 그는 제미나이 3 플래시가 “반복적인 개발에 적합하며, 제미나이 3 프로(Pro)급 코딩 성능을 낮은 지연 시간으로 제공한다”고 덧붙였습니다. 이는 에이전트 코딩, 프로덕션 준비 시스템, 반응형 대화형 애플리케이션에 이상적인 균형을 제공한다고 합니다.
실제 적용 사례와 성능
일부 전문 기업들은 이미 제미나이 3 플래시를 도입하여 그 신뢰성을 입증하고 있습니다. 법률 사무소를 위한 AI 플랫폼인 하비(Harvey)는 내부 ‘빅로 벤치(BigLaw Bench)’에서 추론 능력이 7% 향상되었다고 보고했어요. 또한, 리젬블 AI(Resemble AI)는 제미나이 3 플래시가 딥페이크(deepfake) 탐지를 위한 복잡한 포렌식(forensic) 데이터를 제미나이 2.5 프로(Gemini 2.5 Pro)보다 4배 빠르게 처리할 수 있음을 발견했습니다. 이러한 발전은 단순히 속도 향상을 넘어, 이전에는 불가능했던 ‘거의 실시간’ 워크플로우를 가능하게 하고 있습니다.
비용 효율성: 더 적은 비용으로 더 많은 가치
기업 AI 구축자들은 AI 모델 운영 비용에 대한 인식이 높아지고 있습니다. 특히 고가의 모델에서 실행되는 에이전트 워크플로우에 더 많은 예산을 투입하도록 이해관계자들을 설득해야 하는 상황에서 더욱 그렇습니다. 많은 조직이 AI 비용을 관리하기 위해 더 작거나 정제된 모델, 오픈 모델, 또는 다른 연구 및 프롬프트(prompt) 기술에 주목하고 있습니다.
제미나이 3 플래시의 가장 큰 가치 제안은 더 큰 제미나이 모델들과 동일한 수준의 고급 멀티모달(multimodal) 기능(예: 복잡한 비디오 분석 및 데이터 추출)을 제공하면서도 훨씬 빠르고 저렴하다는 점입니다.
구글의 내부 자료에 따르면 제미나이 2.5 프로 시리즈보다 3배 빠른 속도를 자랑한다고 해요. 독립 벤치마킹(benchmarking) 회사인 아티피셜 애널리시스(Artificial Analysis)의 데이터는 여기에 중요한 뉘앙스를 더합니다. 사전 출시 테스트에서 제미나이 3 플래시 프리뷰(Preview)는 초당 218개의 출력 토큰(token) 처리량을 기록했습니다. 이는 이전의 ‘비추론(non-reasoning)’ 제미나이 2.5 플래시보다 22% 느리지만, 오픈AI(OpenAI)의 GPT-5.1 하이(125 t/s)나 딥시크 V3.2 리즈닝(DeepSeek V3.2 reasoning, 30 t/s)과 같은 경쟁 모델보다는 훨씬 빠릅니다.
가장 주목할 만한 점은 아티피셜 애널리시스가 제미나이 3 플래시를 AA-옴니사이언스(AA-Omniscience) 지식 벤치마크에서 새로운 리더로 선정했다는 것입니다. 이 모델은 현재까지 테스트된 모든 모델 중 가장 높은 지식 정확도를 달성했어요. 하지만 이러한 지능에는 ‘추론 비용(reasoning tax)’이 따릅니다. 복잡한 인덱스를 처리할 때 제미나이 2.5 플래시 시리즈에 비해 토큰 사용량이 두 배 이상 증가합니다.
이러한 높은 토큰 밀도는 구글의 공격적인 가격 정책으로 상쇄됩니다. 제미나이 API를 통해 접근할 때, 제미나이 3 플래시는 100만 입력 토큰당 0.50달러, 100만 출력 토큰당 3달러입니다. 이는 제미나이 2.5 프로의 100만 입력 토큰당 1.25달러, 100만 출력 토큰당 10달러와 비교하면 훨씬 저렴한 가격입니다. 결과적으로 제미나이 3 플래시는 원시 토큰 볼륨 면에서 가장 ‘말이 많은’ 모델 중 하나임에도 불구하고, 지능 수준 대비 가장 비용 효율적인 모델이라는 타이틀을 차지하게 됩니다. 다음은 경쟁 LLM(Large Language Model) 제품과의 비교표입니다.
| 모델 | 입력 (/1M) | 출력 (/1M) | 총 비용 |
|---|---|---|---|
| Qwen 3 Turbo | $0.05 | $0.20 | $0.25 |
| Grok 4.1 Fast (reasoning) | $0.20 | $0.50 | $0.70 |
| Grok 4.1 Fast (non-reasoning) | $0.20 | $0.50 | $0.70 |
| deepseek-chat (V3.2-Exp) | $0.28 | $0.42 | $0.70 |
| deepseek-reasoner (V3.2-Exp) | $0.28 | $0.42 | $0.70 |
| Qwen 3 Plus | $0.40 | $1.20 | $1.60 |
| ERNIE 5.0 | $0.85 | $3.40 | $4.25 |
| Gemini 3 Flash Preview | $0.50 | $3.00 | $3.50 |
| Claude Haiku 4.5 | $1.00 | $5.00 | $6.00 |
| Qwen-Max | $1.60 | $6.40 | $8.00 |
| Gemini 3 Pro (≤200K) | $2.00 | $12.00 | $14.00 |
| GPT-5.2 | $1.75 | $14.00 | $15.75 |
| Claude Sonnet 4.5 | $3.00 | $15.00 | $18.00 |
| Gemini 3 Pro (>200K) | $4.00 | $18.00 | $22.00 |
| Claude Opus 4.5 | $5.00 | $25.00 | $30.00 |
| GPT-5.2 Pro | $21.00 | $168.00 | $189.00 |
비용 절감을 위한 추가 전략
기업 개발자와 사용자들은 더 큰 모델에서 흔히 발생하는 지연 시간을 줄여 토큰 사용량을 더욱 절감할 수 있습니다. 구글은 이 모델이 “얼마나 생각할지 조절할 수 있다”고 설명했어요. 즉, 간단한 프롬프트에는 적은 토큰을 사용하고, 복잡한 작업에는 더 많은 사고와 토큰을 사용한다는 의미입니다. 구글은 제미나이 3 플래시가 제미나이 2.5 프로보다 30% 적은 토큰을 사용한다고 언급했습니다.
이러한 새로운 추론 능력과 기업의 엄격한 지연 시간 요구 사항의 균형을 맞추기 위해 구글은 ‘사고 수준(Thinking Level)’ 매개변수를 도입했습니다. 개발자들은 간단한 채팅 작업의 비용과 지연 시간을 최소화하기 위한 ‘낮음(Low)’ 모드와 복잡한 데이터 추출을 위한 추론 깊이를 최대화하는 ‘높음(High)’ 모드 사이를 전환할 수 있습니다. 이러한 세밀한 제어를 통해 팀은 문제가 실제로 박사 수준의 지식을 요구할 때만 값비싼 ‘사고 토큰’을 소비하는 ‘가변 속도’ 애플리케이션을 구축할 수 있습니다.
경제적인 이점은 단순히 토큰 가격을 넘어섭니다. 컨텍스트 캐싱(Context Caching)이 기본으로 포함되어 있어, 방대한 정적 데이터셋(예: 전체 법률 라이브러리 또는 코드베이스 저장소)을 처리하는 기업은 반복적인 쿼리에서 90%의 비용 절감을 경험할 수 있습니다. 배치 API(Batch API)의 50% 할인과 결합하면, 제미나이 기반 에이전트의 총 소유 비용(TCO)은 경쟁하는 최첨단 모델의 임계값보다 훨씬 낮아진다고 해요.
구글은 “제미나이 3 플래시는 코딩 및 에이전트 작업에서 탁월한 성능을 제공하며, 낮은 가격으로 팀이 높은 볼륨의 프로세스 전반에 걸쳐 정교한 추론 비용을 장벽 없이 배포할 수 있도록 한다”고 밝혔습니다. 구글은 강력한 멀티모달 성능을 더 저렴한 가격에 제공함으로써, AI 지출 관리에 관심 있는 기업들이 특히 제미나이 3 플래시와 같은 자사 모델을 선택해야 한다고 주장하고 있습니다.
강력한 벤치마크 성능
그렇다면 제미나이 3 플래시는 성능 면에서 다른 모델들과 어떻게 비교될까요?
도시 이사는 코딩 에이전트(agent)를 위한 SWE-벤치 베리파이드(SWE-Bench Verified) 벤치마크 테스트에서 이 모델이 78%의 점수를 달성했다고 말했습니다. 이는 이전 제미나이 2.5 제품군과 심지어 새로운 제미나이 3 프로 자체를 능가하는 성능이라고 해요!
기업에게 이는 대량의 소프트웨어 유지보수 및 버그 수정 작업을 이전 플래그십 모델보다 빠르고 저렴하게, 코드 품질 저하 없이 모델에 맡길 수 있다는 것을 의미합니다.
이 모델은 다른 벤치마크에서도 강력한 성능을 보였습니다. MMMU 프로(MMMU Pro) 벤치마크에서 81.2%를 기록했는데, 이는 제미나이 3 프로와 비슷한 수준입니다.
대부분의 플래시(Flash) 유형 모델은 코드 생성과 같은 짧고 빠른 작업에 명시적으로 최적화되어 있지만, 구글은 제미나이 3 플래시의 성능이 “추론, 도구 사용 및 멀티모달 기능에서 복잡한 비디오 분석, 데이터 추출 및 시각적 Q&A를 수행하려는 개발자에게 이상적”이라고 주장합니다. 이는 빠른 답변과 깊은 추론을 모두 요구하는 인게임(in-game) 어시스턴트나 A/B 테스트 실험과 같은 더 지능적인 애플리케이션을 가능하게 할 수 있다는 의미입니다.
초기 사용자들의 첫인상
지금까지 초기 사용자들은 이 모델, 특히 벤치마크 성능에 크게 감명받았다고 합니다.
기업 AI 활용에 미치는 영향
제미나이 3 플래시가 이제 구글 검색과 제미나이 앱 전반에 걸쳐 기본 엔진으로 사용되면서, 우리는 최첨단 지능의 “플래시화(Flash-ification)”를 목격하고 있습니다. 프로(Pro) 수준의 추론을 새로운 기본으로 설정함으로써, 구글은 느린 기존 업체들에게 함정을 놓고 있는 셈입니다.
구글 안티그래비티와 같은 플랫폼에 통합되었다는 것은 구글이 단순히 모델을 판매하는 것이 아니라, 자율적인 기업을 위한 인프라를 판매하고 있음을 시사합니다.
개발자들이 3배 빠른 속도와 컨텍스트 캐싱에서 90% 할인 혜택을 받으며 빠르게 작업에 착수함에 따라, “제미나이 우선(Gemini-first)” 전략은 설득력 있는 재정적 주장이 됩니다. AI 지배를 위한 고속 경쟁에서 제미나이 3 플래시는 ‘바이브 코딩(vibe coding)’을 실험적인 취미에서 생산 준비가 된 현실로 마침내 전환시킬 수 있는 모델이 될지도 모릅니다.
