로컬 LLM, AI 주권 시대를 열다.

클라우드 컴퓨팅이 보편화된 지 꽤 오랜 시간이 흘렀습니다. 우리는 메가바이트 단위로 컴퓨팅 자원에 비용을 지불하는 것에 익숙해졌죠. 하지만 인공지능(AI) 시대가 본격화되면서, 이러한 흐름이 다시 한번 반복될 조짐을 보이고 있습니다. 현재는 AI 서비스가 비교적 저렴하게 느껴질 수 있지만, 앞으로도 그럴지는 미지수입니다.

기반 AI 모델 서비스 회사들은 토큰 단위로 인사이트에 대한 요금을 부과하며, 심지어 손실을 감수하면서 운영하고 있다고 합니다. 결국 언젠가는 이윤을 창출해야 할 텐데, 그 비용이 우리의 주머니에서 나오든, 아니면 우리의 데이터에서 나오든, 기업에 얽매이지 않고 AI의 혜택을 누릴 수 있는 다른 방법을 찾는 사람들이 늘고 있습니다. 점점 더 많은 사람들이 직접 AI 모델을 실행하는 실험을 하고 있으며, 하드웨어와 소프트웨어의 발전 덕분에 이는 생각보다 훨씬 현실적인 이야기가 되고 있습니다.

클라우드 AI, 과연 합리적일까요?

클라우드 기반 AI 서비스는 편리하지만, 몇 가지 우려를 낳고 있습니다.

데이터 프라이버시 문제: 퓨 리서치 센터(Pew Research Center)의 조사에 따르면, 미국인의 81%가 AI 기업이 자신의 데이터를 오용할까 봐 걱정한다고 합니다. 미국 연방거래위원회(Federal Trade Commission)는 AI 모델 기업들에게 고객 데이터 관련 약속을 지킬 것을 경고하기도 했습니다.
데이터 보존 논란: 오픈AI(OpenAI)는 사용자가 요청하면 채팅 기록을 삭제하겠다고 했지만, 실제로 데이터를 완전히 삭제하는 것은 불가능하다고 합니다. 뉴욕 타임즈(New York Times) 등과의 소송에서 법원은 오픈AI에 채팅 기록을 보존하라고 명령하기도 했습니다.
정책 변화: 윤리적이고 프라이버시를 중시하던 기업들도 시장 역학에 따라 정책을 변경하는 경우가 있습니다. 앤트로픽(Anthropic)은 최근 AI 모델에 기억 기능을 부여한다고 발표한 지 며칠 만에 데이터 보존 기간을 30일에서 5년으로 연장하고, 사용자 데이터를 모델 훈련에 사용하기 시작했습니다. 물론 사용자가 이 기능을 끌 수 있지만, 이는 ‘옵트아웃(opt-out)’ 방식이라는 점이 아쉽습니다.
비용 문제: AI 기업들이 손실을 감수하며 컴퓨팅 파워를 판매하는 경향이 있지만, 사용자에게는 사용량 제한(rate-limit)을 두는 경우가 많습니다. 월 100달러 이상을 지불하면서도 AI 기반 코딩 세션 도중 서비스가 중단되는 경험을 해본 사람이라면 이 문제에 공감할 것입니다. LM 스튜디오(LM Studio)의 설립자 야길 부로스키(Yagil Burowski)는 “코드 실행 비용이 발생한다는 사실이 탐색의 즐거움을 반감시켰다”고 말하기도 했습니다.

로컬 LLM, 왜 떠오를까요?

이러한 클라우드 AI의 한계점들 때문에 로컬 LLM(Large Language Model)이 주목받고 있습니다.

데이터 주권과 신뢰: 빅테크에 대한 불신은 로컬 LLM 채택의 주요 동기 중 하나입니다. 특히 미국의 AI 규제 완화 움직임 속에서 유럽 기업들은 자체적인 대안을 모색하고 있습니다. 예를 들어, 독일 엔지니어링 회사 마칸드라(Makandra)는 GDPR(General Data Protection Regulation) 규정을 준수하기 위해 자체적으로 로컬 AI를 구축했습니다.
기술 민주주의 실현: 멘로 리서치(Menlo Research)의 프로젝트인 얀(Jan)의 성장 엔지니어이자 리더인 엠레 칸 카르탈(Emre Can Kartal)은 “AI는 인류가 가진 가장 큰 영향력의 원천 중 하나”라며, “이것이 소수의 기술 거인에게 집중되지 않고 개방된 상태로 사람들의 손에 남아 있도록 하는 것이 우리의 사명”이라고 강조합니다.
비용 절감 효과: 클라우드 AI의 토큰당 과금 방식은 비용 부담으로 이어질 수 있습니다. 로컬 LLM은 초기 하드웨어 투자 외에는 추가 비용 없이 무제한으로 사용할 수 있다는 장점이 있습니다.
환경 보호에 기여: 클라우드 AI의 환경 영향도 무시할 수 없습니다. 연구 회사 EPRI에 따르면, 미국 데이터센터는 2030년까지 미국 전체 전력의 9% 이상을 소비할 것으로 예상됩니다. 또한, 많은 데이터센터가 증발 냉각 방식을 사용하여 엄청난 양의 물을 소비합니다. 대략 대화 한 번당 0.5리터의 물이 사용된다고 합니다. 로컬 LLM은 훈련 비용보다는 추론(inference) 과정에서 환경적 이점을 가집니다. 이미 훈련된 오픈 소스 모델을 사용한다면, 로컬에서 추론할수록 환경에 긍정적인 영향을 줄 수 있습니다. PC 냉각에 사용되는 액체는 폐쇄 루프 방식이므로 물 낭비도 적습니다. 물론 로컬에서도 전력을 소비하지만, 전력원의 종류와 PC 부품의 탄소 수명 주기 등을 고려하면 클라우드 방식보다 유리할 수 있습니다.

내 컴퓨터에서 AI를? 기술적 가능성

그렇다면 로컬 LLM을 효과적으로 실행하려면 무엇이 필요할까요?

양자화(Quantization)의 마법: LLM에서 핵심 개념인 양자화는 신경망 노드에서 파생된 가중치 값의 정밀도를 줄여 저장 공간과 처리 능력을 절약하는 기술입니다. 부동 소수점 숫자의 정밀도를 낮추거나 정수 값으로 대체하여 양자화를 높일 수 있습니다. 이는 AI 알고리즘의 정확도를 약간 떨어뜨리지만, 그 영향은 미미하며, 성능 향상 덕분에 서버실, 엣지 장치, 심지어 개인용 컴퓨터에서도 AI를 실행할 수 있게 됩니다.
- AI 인프라 회사 모달(Modal)에 따르면, 절반 정밀도(16비트)에서 매개변수 10억 개당 2GB의 VRAM(Video RAM)이 필요하다고 합니다. VRAM을 늘리거나 양자화를 높여 더 많은 매개변수를 처리할 수 있습니다.
하드웨어 요구사항: 엔비디아(Nvidia) RTX 5090 GPU는 32GB VRAM을 가지고 있으며, 이전 세대 엔터프라이즈 하드웨어인 중고 쿼드로(Quadro) RTX 카드도 새로운 소비자용 GPU보다 VRAM당 가격 면에서 유리할 수 있습니다. 얀(Jan)의 라몬 페레즈(Ramon Perez)는 “M2 맥북 프로(MacBook Pro)의 24GB 통합 메모리도 200억 개 이상의 매개변수 모델을 놀랍도록 잘 실행한다”고 언급했습니다.
소프트웨어의 발전: 하드웨어만으로는 충분하지 않습니다. 다양한 장비에서 LLM을 실행할 수 있게 된 것은 근본적인 소프트웨어 스택의 발전 덕분입니다.
- ggml 스택: 게오르기 게르가노프(Georgi Gerganov)는 ggml 스택(예: llama.cpp 및 whisper.cpp)이 로컬 AI를 가능하게 하는 데 가장 큰 영향을 미 미쳤다고 말합니다. ggml은 다양한 하드웨어에서 머신러닝 모델을 실행하기 위한 저수준 라이브러리입니다.
- llama.cpp: 게르가노프가 관리하는 llama.cpp는 CPU뿐만 아니라 GPU도 활용하여 LLM을 실행하는 데 기반이 되는 패키지입니다.
- 올라마(Ollama): 가장 인기 있는 CLI(Command Line Interface) 플랫폼 중 하나인 올라마는 llama.cpp 위에 구축된 개발자 레이어입니다. 200개 이상의 사전 구성된 LLM을 한 줄 설치로 제공하여, LLM 개발자들이 로컬 생성형 AI를 쉽게 시작할 수 있도록 돕습니다.
- 사용자 친화적 환경: 얀(Jan)과 LM 스튜디오(LM Studio)와 같은 소비자 친화적인 환경 덕분에 많은 사람들이 오픈 소스 AI를 쉽게 사용할 수 있게 되었습니다. 이들은 엔비디아의 CUDA 라이브러리나 저수준 종속성 같은 복잡한 부분을 추상화하여, 비개발자도 LLM을 활용할 수 있도록 돕습니다. LM 스튜디오의 야길 부로스키는 “많은 사용자가 엔지니어가 아니며, 변호사, 교사, 금융업 종사자 등 다양한 분야의 사람들이 이 기술을 활용하고 있다”고 설명합니다.

다양한 로컬 LLM 모델들

이제는 사용 사례와 하드웨어 성능에 따라 모두를 위한 모델이 존재합니다.

일반 모델: 라마(Llama)와 미스트랄(Mistral) 같은 일반 모델은 소규모부터 대규모까지 다양한 매개변수 수를 제공합니다. 구글 젬마 2(Google Gemma 2)는 온디바이스(on-device) 작업을 위해 20억 개 매개변수까지 축소됩니다.
특화 모델: 코딩에 특화된 큐웬 2.5 코더 7B(Qwen 2.5 Coder 7B)와 딥시크 코더 V2(DeepSeek Coder V2) 같은 모델도 있습니다. 게오르기 게르가노프는 “매일 로컬 코드 어시스턴스를 사용하여 코드 완성 및 질문에 대한 도움을 받는다”고 말합니다. 미쏘맥스(Mythomax)와 같은 스토리텔링 LLM은 롤플레잉 게임에 유용하다고 알려져 있습니다.

로컬 LLM, 클라우드 모델만큼 좋을까요?

그렇다면 이 모든 로컬 모델들이 클라우드에서 실행되는 강력한 모델들보다 나을까요, 아니면 그럴 필요가 있을까요?

AI 회사 노믹(Nomic)의 설립자 안드리 물랴르(Andriy Mulyar)는 로컬 AI 모델을 만들려고 노력했지만, 잠재 고객에게 서비스를 판매하는 데 어려움을 겪었다고 합니다. 그는 로컬 LLM에 대해 “개인 및 취미용으로는 훌륭하다. 이메일을 작성하거나 코딩을 시연하는 등 가치를 얻을 수 있다”고 말합니다. 하지만 그에게는 거기까지였습니다. “궁극적으로 이러한 모델로 진지한 비즈니스 작업을 수행하려면 품질이 충분히 높지 않습니다. 200억 개 매개변수 모델에 담을 수 있는 실제 지식의 양은 일반적인 비즈니스나 기업의 요구를 충족시키기에 충분하지 않기 때문입니다.”

노믹은 대신 오픈AI와 제로 보존 계약을 맺고, 노믹 자체 서비스를 추가하여 엔지니어링 및 건설 분야의 전문 문서를 해석하는 데 활용하고 있습니다.

클라우드 모델이 로컬 모델보다 앞서는 두 가지 요인은 다음과 같습니다.

크기: 얀(Jan)의 라몬 페레즈는 “더 큰 모델이 항상 더 일반적으로 지능적일 것”이라고 동의합니다. 하지만 “작은 모델은 미세 조정과 강화 학습을 통해 진화하는 요구 사항에 더 빠르게 특화되고 적응하는 경향이 있다”고 덧붙입니다. 대부분의 사용자와 팀은 제2차 세계 대전의 모든 세부 사항을 기억하는 5천억 개 매개변수 모델이 필요하지 않습니다.
- 검색 증강 생성(RAG): 특정 관심사를 가진 사람들이 LLM이 활용할 자체 지식 기반을 구축하면, 좁게 정의된 영역에서 인상적인 결과를 얻을 수 있습니다. 이는 대학 수업을 위한 ‘전쟁과 평화’에 대한 질문에 답하는 것부터 기술 매뉴얼을 취합하여 전문가 조언을 얻는 것까지 다양합니다.
- 멀티 에이전트 아키텍처: 법률 문서 요약, 전사(transcription) 처리, 제2차 세계 대전 역사 코칭, 크툴루(Cthulhu) 모험의 던전 마스터 역할 등 특정 작업을 처리하기 위해 다양한 중앙 집중식 모델을 교체하여 사용하는 멀티 에이전트 아키텍처도 많은 것을 가능하게 합니다. 랭체인(Langchain)과 크루AI(CrewAI) 같은 프레임워크는 이러한 LLM 오케스트레이션에 관심 있는 사람들을 위해 제공됩니다.
비밀 유지: 오픈AI와 같은 기업들은 시장 선두를 유지하기 위해 주력 모델을 철저히 보호합니다. 하지만 딥시크(DeepSeek)의 시장 파괴 사례에서 보듯이 이러한 선두는 취약합니다. 구글(Google)이 이미 말했듯이 “해자(moat)는 없다”는 것이죠.

하지만 이러한 격차는 빠르게 줄어들고 있습니다. 게오르기 게르가노프는 “품질 차이가 매우 빠르게 줄어들고 있다”며, “오늘날 로컬 품질은 1년 전 클라우드 품질과 같거나 더 좋다. 앞으로도 계속 개선될 것”이라고 말합니다. 그동안에는 프롬프트 작성에 더 신경 쓰고, 로컬 LLM의 컨텍스트(모델의 채팅당 작업 메모리)에 무엇을 넣을지 신중하게 고려하는 것이 중요합니다. 야길 부로스키는 “GPT나 클로드(Claude) 같은 모델은 매우 지저분한 컨텍스트와 불분명한 지시도 처리할 수 있지만, 로컬 모델은 더 세심한 지도가 필요하다”고 조언합니다.

나만의 로컬 AI 여정 시작하기

민감한 작업을 관리할 개인 시스템을 찾는 법률 회사든, 개인 지식 그래프를 구축하려는 취미가든, 로컬 LLM 여정은 자신의 목표와 현실을 일치시키는 것에서 시작해야 합니다.

개인 정보 보호, 비용, 성능 요구 사항이 로컬 배포를 정당화하는 명확한 사용 사례를 설정하는 것이 중요합니다. 자신의 기술 수준에 맞는 적절한 도구를 선택하고, 하드웨어 프로필에 맞는 일반 모델을 사용하는 것이 좋습니다.

과장된 기대가 가라앉고 나면, 현대 AI는 여전히 컴퓨팅의 새로운 시대를 대표할 것입니다. 프롬프트 전문 지식부터 책상 옆에 호스팅되는 LLM에 이르기까지 모든 것을 기꺼이 실험할수록, AI를 더 잘 제어할 수 있게 될 것입니다.