OpenAI가 새로운 모델인 GPT-4.1과 GPT-4.1 mini를 ChatGPT 사용자들에게 선보이기 시작했어요. 우선 ChatGPT Plus, Pro, Team 유료 구독자들에게 먼저 제공되고, 앞으로 몇 주 안에 Enterprise 및 Education 사용자들도 이용할 수 있게 될 예정이라고 합니다.
특히 GPT-4.1 mini는 기존 GPT-4o mini를 대체하며 무료 사용자를 포함한 모든 ChatGPT 사용자의 기본 모델이 되었어요. 이 모델들은 ‘비추론형(non-reasoning)’ 대규모 언어 모델(LLM)로, 높은 성능과 낮은 비용 사이에서 균형을 맞춘 것이 특징입니다.
사용자들은 ChatGPT 채팅 창 상단에 있는 ‘더 많은 모델(more models)’ 드롭다운 메뉴에서 GPT-4.1, GPT-4.1 mini, 그리고 o3, o4-mini, o4-mini-high 같은 추론형 모델 중에서 원하는 모델을 선택할 수 있습니다.
원래 이 모델들은 OpenAI의 API를 통해 서드파티 소프트웨어 및 AI 개발자들만 사용할 수 있도록 설계되었는데요. 사용자들의 강력한 피드백 덕분에 ChatGPT에도 추가되었다고 합니다. OpenAI의 연구 책임자인 미셸 포크라스(Michelle Pokrass)는 X(구 트위터)를 통해 이러한 변화가 사용자들의 요청에 따른 것이라고 확인해 주었어요. OpenAI 최고 제품 책임자 케빈 웨일(Kevin Weil)도 X에 “개발자들을 위해 만들었기 때문에 코딩과 지시 따르기에 매우 능숙합니다. 한번 사용해보세요!”라고 게시했습니다.
기업을 위한 실용적인 모델
GPT-4.1은 처음부터 기업 수준의 실용성을 염두에 두고 설계되었습니다. 2025년 4월에 GPT-4.1 mini 및 nano와 함께 출시된 이 모델 제품군은 개발자의 요구사항과 실제 서비스 적용 사례를 우선시했어요.
GPT-4.1은 소프트웨어 엔지니어링 벤치마크인 SWE-bench Verified에서 GPT-4o보다 21.4점 향상된 성능을 보였고, Scale의 MultiChallenge 벤치마크의 지시 따르기 작업에서는 10.5점 개선되었습니다. 또한 다른 모델에 비해 장황함(verbosity)이 50% 감소했는데, 이는 초기 테스트에서 기업 사용자들이 특히 칭찬한 부분이라고 합니다.
컨텍스트 길이와 속도
ChatGPT에서 GPT-4.1은 무료 사용자는 8,000 토큰, Plus 사용자는 32,000 토큰, Pro 사용자는 128,000 토큰의 표준 컨텍스트 창을 지원합니다. 이는 이전 ChatGPT 모델들과 동일한 제한이지만, 향후 컨텍스트 크기를 더 늘릴 계획이라고 합니다.
API 버전의 GPT-4.1은 최대 100만 토큰까지 처리할 수 있는데, 이 확장된 용량은 아직 ChatGPT에서 사용할 수 없지만 향후 지원될 가능성이 시사되었습니다. 이처럼 확장된 컨텍스트 기능은 API 사용자가 전체 코드베이스나 대규모 법률 및 금융 문서를 모델에 입력할 수 있게 해줍니다. 여러 문서로 된 계약서를 검토하거나 대규모 로그 파일을 분석하는 데 유용하게 활용될 수 있어요.
OpenAI는 극도로 큰 입력값에서는 성능 저하가 일부 발생할 수 있음을 인정했지만, 기업 테스트 사례에서는 수십만 토큰까지는 견고한 성능을 보였다고 합니다.
평가 및 안전성
OpenAI는 모델 전반의 주요 성능 지표를 사용자들이 확인할 수 있도록 안전 평가 허브(Safety Evaluations Hub) 웹사이트도 공개했습니다.
GPT-4.1은 이러한 평가에서 견고한 결과를 보여줍니다. 사실 정확도 테스트에서는 SimpleQA 벤치마크에서 0.40점, PersonQA에서 0.63점을 기록하며 이전 모델들보다 뛰어난 성능을 보였어요.
또한 표준 거부 테스트에서 OpenAI의 ‘안전하지 않음(not unsafe)’ 측정에서 0.99점을, 더 어려운 프롬프트에서는 0.86점을 기록했습니다.
하지만 적대적 조건에서의 안전성을 평가하는 학술 벤치마크인 StrongReject 탈옥 테스트에서는 0.23점을 기록하며 GPT-4o-mini 및 o3 같은 모델에 비해 뒤처지는 모습을 보였습니다. 그럼에도 불구하고 사람이 만든 탈옥 프롬프트에서는 0.96점이라는 높은 점수를 기록하여 일반적인 사용 환경에서는 더 강력한 실제 안전성을 보여준다고 할 수 있습니다.
지시 준수 측면에서는 OpenAI가 정의한 계층 구조(시스템 > 개발자 > 사용자 메시지)를 잘 따르며, 시스템 vs 사용자 메시지 충돌 해결에서 0.71점을 기록했습니다. 또한 보호된 문구를 보호하고 튜터링 시나리오에서 해결책을 미리 알려주지 않는 등에서도 좋은 성능을 보입니다.
이전 모델 및 경쟁 모델과의 비교
GPT-4.1 출시는 2025년 2월에 연구 미리보기로 공개되었던 GPT-4.5에 대한 면밀한 검토 이후에 이루어졌습니다. GPT-4.5는 비지도 학습 개선, 더 풍부한 지식 기반, 환각률 감소(GPT-4o의 61.8%에서 37.1%로 감소)를 강조했습니다. 또한 감성적 뉘앙스와 장문 작성 능력도 향상되었지만, 많은 사용자는 개선 사항이 미묘하다고 느꼈습니다.
이러한 개선에도 불구하고 GPT-4.5는 API를 통한 높은 가격(백만 출력 토큰당 최대 180달러)과 OpenAI의 o-시리즈 모델에 비해 수학 및 코딩 벤치마크에서 기대 이하의 성능으로 비판을 받았습니다. 업계 관계자들은 GPT-4.5가 일반 대화 및 콘텐츠 생성에는 더 강했지만, 개발자 특정 애플리케이션에서는 성능이 떨어진다고 지적했습니다.
반면 GPT-4.1은 더 빠르고 집중적인 대안으로 의도되었습니다. GPT-4.5의 폭넓은 지식과 광범위한 감성 모델링은 부족하지만, 실제 코딩 지원에 더 잘 맞춰져 있고 사용자 지침을 더 안정적으로 따릅니다.
OpenAI API에서 GPT-4.1은 현재 백만 입력 토큰당 2.00달러, 백만 캐시된 입력 토큰당 0.50달러, 백만 출력 토큰당 8.00달러로 책정되어 있습니다. 속도와 지능의 균형을 더 낮은 비용으로 찾는 사용자들을 위해 GPT-4.1 mini는 백만 입력 토큰당 0.40달러, 백만 캐시된 입력 토큰당 0.10달러, 백만 출력 토큰당 1.60달러로 이용 가능합니다.
구글(Google)의 Flash-Lite 및 Flash 모델은 백만 입력 토큰당 0.075~0.10달러, 백만 출력 토큰당 0.30~0.40달러부터 시작하여 GPT-4.1 기본 요금의 10분의 1 미만입니다.
하지만 GPT-4.1은 가격이 더 높지만, 더 강력한 소프트웨어 엔지니어링 벤치마크와 더 정확한 지시 따르기를 제공합니다. 이는 비용보다 안정성이 중요한 기업 배포 시나리오에서 중요할 수 있습니다. 궁극적으로 OpenAI의 GPT-4.1은 정확성과 개발 성능을 위한 프리미엄 경험을 제공하는 반면, 구글의 Gemini 모델은 유연한 모델 계층과 멀티모달 기능이 필요한 비용에 민감한 기업에게 매력적입니다.
기업 의사결정자에게 의미하는 것
GPT-4.1의 도입은 LLM 배포, 오케스트레이션, 데이터 운영을 관리하는 기업 팀에게 구체적인 이점을 제공합니다.
- LLM 배포를 감독하는 AI 엔지니어는 향상된 속도와 지시 준수 능력을 기대할 수 있습니다. 모델 미세 조정부터 문제 해결까지 전체 LLM 라이프사이클을 관리하는 팀에게 GPT-4.1은 더 반응적이고 효율적인 도구 세트를 제공합니다. 특히 안전이나 규정 준수를 타협하지 않고 고성능 모델을 신속하게 출시해야 하는 소규모 팀에게 적합합니다.
- 확장 가능한 파이프라인 설계에 집중하는 AI 오케스트레이션 리더는 대부분의 사용자 유발 오류에 대한 GPT-4.1의 견고성과 메시지 계층 구조 테스트에서의 강력한 성능을 높이 평가할 것입니다. 이는 일관성, 모델 검증 및 운영 안정성을 우선시하는 오케스트레이션 시스템에 통합하기 더 쉽게 만듭니다.
- 높은 데이터 품질을 유지하고 새로운 도구를 통합하는 데이터 엔지니어는 GPT-4.1의 낮은 환각률과 높은 사실 정확도에서 이점을 얻을 수 있습니다. 예측 가능한 출력 동작은 팀 리소스가 제한적일 때도 신뢰할 수 있는 데이터 워크플로우를 구축하는 데 도움이 됩니다.
- DevOps 파이프라인 전반에 보안을 내장하는 IT 보안 전문가는 일반적인 탈옥에 대한 GPT-4.1의 저항력과 제어된 출력 동작에서 가치를 찾을 수 있습니다. 학술적 탈옥 저항 점수는 개선의 여지가 있지만, 사람이 만든 익스플로잇에 대한 모델의 높은 성능은 내부 도구에 안전하게 통합하는 데 도움이 됩니다.
이러한 역할 전반에 걸쳐 GPT-4.1은 명확성, 규정 준수 및 배포 효율성에 최적화된 모델로서, 성능과 운영 요구사항 사이에서 균형을 맞추려는 중견 기업에게 매력적인 옵션이 됩니다.
새로운 발전 단계
GPT-4.5가 모델 개발의 확장 이정표를 나타냈다면, GPT-4.1은 유용성에 중점을 둡니다. 가장 비싸거나 가장 멀티모달 모델은 아니지만, 기업에게 중요한 정확성, 배포 효율성, 비용 측면에서 의미 있는 이점을 제공합니다.
이러한 재포지셔닝은 가장 큰 모델을 무조건 구축하는 것에서 벗어나, 유능한 모델을 더 접근 가능하고 적응 가능하게 만드는 광범위한 산업 트렌드를 반영합니다. GPT-4.1은 이러한 요구를 충족하며, AI를 비즈니스 운영에 더 깊이 내장하려는 팀에게 유연하고 실제 서비스에 바로 적용 가능한 도구를 제공합니다.
OpenAI가 모델 제공을 계속 발전시킴에 따라, GPT-4.1은 기업 환경을 위한 고급 AI의 대중화에 한 걸음 더 나아간 것을 의미합니다. 기능과 ROI 사이에서 균형을 맞추는 의사결정자에게는 성능이나 안전성을 희생하지 않고 배포를 위한 더 명확한 경로를 제공합니다.