AI 모델 도입, 숨겨진 비용을 아시나요? 클로드(Claude) 모델이 GPT보다 20-30% 더 비쌀 수 있는 이유
AI 모델을 기업 환경에 도입할 때 비용은 매우 중요한 고려 사항입니다. 모델 제공 업체들은 경쟁력 있는 ‘토큰당 비용’을 제시하며 고객을 유치하죠. 하지만 광고된 가격만 보고 모델을 선택했다가는 예상치 못한 추가 비용에 직면할 수 있다는 분석이 나왔습니다. 특히 앤트로픽(Anthropic)의 클로드 모델이 오픈AI(OpenAI)의 GPT 모델보다 실제 비용이 20~30% 더 높을 수 있다는 흥미로운 내용입니다.
겉으로 보이는 가격 비교: 클로드 3.5 소네트 vs GPT-4o
2024년 6월 기준으로, 앤트로픽의 클로드 3.5 소네트(Claude 3.5 Sonnet)와 오픈AI의 GPT-4o는 매우 경쟁적인 가격 구조를 가지고 있습니다. 출력 토큰 비용은 두 모델이 동일하지만, 클로드 3.5 소네트는 입력 토큰 비용이 GPT-4o보다 40% 더 저렴하게 책정되어 있습니다.
겉으로만 보면 클로드 모델이 비용 효율적일 것처럼 보입니다.
숨겨진 비용: 토크나이저(Tokenizer) 비효율성
하지만 실제 실험 결과는 달랐습니다. 동일한 프롬프트(입력 텍스트) 세트를 사용하여 실험했을 때, GPT-4o를 사용하는 총비용이 클로드 3.5 소네트보다 훨씬 저렴한 것으로 나타났습니다.
그 이유는 바로 ‘토크나이저 비효율성’에 있습니다.
AI 모델은 텍스트를 처리하기 전에 ‘토큰(token)’이라는 작은 단위로 분해하는 과정을 거치는데, 이 역할을 하는 것이 토크나이저입니다. 문제는 모델마다 사용하는 토크나이저가 다르다는 것입니다.
앤트로픽의 토크나이저는 오픈AI의 토크나이저에 비해 동일한 입력 텍스트를 더 많은 토큰으로 분해하는 경향이 있습니다. 즉, 같은 내용을 입력해도 클로드 모델은 GPT 모델보다 훨씬 많은 토큰을 생성하게 됩니다. 결과적으로 토큰당 비용이 저렴하더라도 총 토큰 수가 많아지면서 전체 비용이 상승하는 현상이 발생합니다.
이러한 ‘토큰 수 인플레이션’은 비용뿐만 아니라 모델이 한 번에 처리할 수 있는 텍스트의 양, 즉 컨텍스트 창(context window) 활용에도 영향을 미칩니다.
콘텐츠 종류에 따라 달라지는 비효율성
토크나이저의 비효율성은 콘텐츠의 종류에 따라서도 다르게 나타납니다. 영어 기사, 코드(Python), 수학 공식 등 세 가지 인기 있는 도메인에서 클로드 3.5 소네트와 GPT-4o의 토큰 수를 비교한 결과는 다음과 같습니다.
- 영어 기사: 클로드 토크나이저가 GPT-4o보다 약 16% 더 많은 토큰을 생성합니다.
- 수학 공식: 클로드 토크나이저가 GPT-4o보다 약 21% 더 많은 토큰을 생성합니다.
- 코드 (Python): 클로드 토크나이저가 GPT-4o보다 약 30% 더 많은 토큰을 생성합니다.
이처럼 기술 문서나 코드와 같이 구조화된 콘텐츠일수록 앤트로픽의 토크나이저가 더 작은 단위로 텍스트를 분해하는 경향이 강해져 토큰 오버헤드가 크게 증가하는 것을 알 수 있습니다. 반면, 자연어 콘텐츠에서는 토큰 오버헤드가 상대적으로 낮게 나타납니다.
컨텍스트 창 활용에도 영향
앤트로픽 모델은 오픈AI 모델보다 더 큰 컨텍스트 창(클로드 200K 토큰 vs GPT 128K 토큰)을 광고하고 있습니다. 하지만 토크나이저의 비효율성 때문에 동일한 양의 정보를 입력하더라도 클로드 모델이 더 많은 토큰을 사용하게 됩니다.
이는 광고된 컨텍스트 창 크기보다 실제로 유효하게 사용할 수 있는 공간이 줄어들 수 있음을 의미합니다. 결과적으로 광고된 컨텍스트 창 크기와 실제 유효 컨텍스트 창 크기 사이에 차이가 발생할 수 있습니다.
토크나이저 구현 방식의 차이
GPT 모델은 BPE(Byte Pair Encoding)라는 방식을 사용하며, 최신 모델은 o200k_base 토크나이저를 사용합니다. 오픈AI는 토크나이저 정보를 비교적 투명하게 공개하고 있습니다.
반면, 앤트로픽의 토크나이저에 대한 정보는 상대적으로 적습니다. 알려진 바에 따르면 앤트로픽은 오픈AI보다 적은 수의 토큰 변형(약 65,000개 vs 100,261개)을 사용한다고 합니다. 이러한 구현 방식의 차이가 토큰화 효율성 차이로 이어지는 것으로 보입니다.
핵심 요약
AI 모델 도입을 고려하는 기업들에게 이번 분석은 중요한 시사점을 제공합니다.
- 광고된 가격 외 숨겨진 비용 고려: 앤트로픽의 클로드 3.5 소네트가 입력 토큰 비용이 저렴하더라도, 토크나이저 비효율성으로 인해 실제 총비용은 GPT-4o보다 높을 수 있습니다.
- 토크나이저 비효율성 확인: 앤트로픽 모델은 동일한 입력에 대해 더 많은 토큰을 생성하는 경향이 있으며, 이는 비용 상승의 주요 원인이 됩니다.
- 콘텐츠 도메인별 효율성 평가: 사용하는 데이터의 종류(자연어, 코드, 수학 등)에 따라 토큰화 효율성 차이가 크게 나타나므로, 실제 사용 환경에 맞는 테스트가 필요합니다.
- 유효 컨텍스트 창 확인: 토큰 수 증가로 인해 광고된 컨텍스트 창 크기보다 실제 사용 가능한 공간이 줄어들 수 있습니다.
따라서 AI 모델을 선택할 때는 단순히 토큰당 비용만 비교할 것이 아니라, 실제 사용될 데이터 유형에 따른 토큰화 효율성까지 종합적으로 고려하여 총비용과 성능을 평가하는 것이 중요합니다.