AI 이미지 생성, 속도의 혁신: HART 등장

AI 이미지 생성의 미래를 엿보다: 놀라운 속도!

인공지능(AI)의 핵심 문제 중 하나는 막대한 전력과 컴퓨팅 자원 소모입니다. 특히 이미지나 영상 같은 미디어 생성 작업은 더욱 그렇죠. 스마트폰에서 AI 기능을 구동하려면 고성능 칩셋을 탑재한 고가 모델이 필요하고, 클라우드 환경에서 대규모로 운영하는 것도 만만치 않은 비용이 듭니다.

하지만 최근 매사추세츠공과대학교(MIT, Massachusetts Institute of Technology)와 칭화대학교 연구진이 협력하여 이 문제를 해결할 가능성을 제시했습니다. 그들은 “HART (Hybrid Autoregressive Transformer)”라는 하이브리드 AI 이미지 생성 도구를 개발했는데, 이는 현재 가장 널리 사용되는 두 가지 AI 이미지 생성 기술을 결합한 것입니다. 덕분에 컴퓨팅 요구 사항은 크게 낮추면서도 매우 빠른 속도를 자랑한다고 해요.

HART, 얼마나 빠를까?

어느 정도냐면, 기자가 직접 “베이스 기타를 연주하는 앵무새” 이미지를 생성해 달라고 요청했을 때 단 1초 만에 결과물을 받아볼 수 있었다고 합니다. 진행 표시줄을 따라가기도 힘들 정도였다고 하네요. 같은 프롬프트를 구글 제미나이(Gemini)의 Imagen 3 모델에 입력했을 때는 200Mbps 인터넷 연결 환경에서 약 9~10초가 걸린 것과 비교하면 엄청난 속도 차이입니다.

획기적인 발전

AI 이미지가 처음 등장했을 때, OpenAI의 DALL-E 이미지 생성기, 구글의 Imagen, 그리고 Stable Diffusion 같은 제품들은 주로 디퓨전(diffusion) 기술을 사용했습니다. 이 방법은 매우 높은 수준의 디테일을 가진 이미지를 만들 수 있지만, AI 이미지를 생성하는 데 여러 단계를 거쳐야 하므로 속도가 느리고 컴퓨팅 비용이 많이 듭니다.

최근에는 자기 회귀 모델(auto-regressive models)이 인기를 얻고 있는데, 이는 챗봇과 유사하게 작동하며 픽셀 예측 기술을 사용하여 이미지를 생성합니다. 이 방법은 더 빠르지만, AI를 사용하여 이미지를 생성할 때 오류가 발생하기 쉽다는 단점이 있습니다.

MIT 연구팀은 이 두 가지 방법을 결합하여 HART라는 단일 패키지로 만들었습니다. HART는 자기 회귀 모델을 사용하여 압축된 이미지 자산을 이산 토큰으로 예측하고, 작은 디퓨전 모델이 나머지 부분을 처리하여 품질 손실을 보완합니다. 전체적인 접근 방식은 관련된 단계 수를 24단계 이상에서 8단계로 줄여줍니다.

HART 개발자들은 이 기술이 “최첨단 디퓨전 모델의 품질과 동등하거나 그 이상의 이미지를 약 9배 더 빠른 속도로 생성할 수 있다”고 주장합니다. HART는 7억 개의 파라미터 범위를 가진 자기 회귀 모델과 3,700만 개의 파라미터를 처리할 수 있는 작은 디퓨전 모델을 결합했습니다.

컴퓨팅 비용 문제 해결

흥미로운 점은 이 하이브리드 도구가 20억 개의 파라미터 용량을 가진 최고급 모델의 품질과 비슷한 이미지를 생성할 수 있다는 것입니다. 가장 중요한 것은 HART가 31% 더 적은 컴퓨팅 자원을 필요로 하면서도 9배 더 빠른 이미지 생성 속도를 달성했다는 점입니다.

연구팀에 따르면, 낮은 컴퓨팅 요구 사항 덕분에 HART는 스마트폰이나 노트북에서 로컬로 실행할 수 있습니다. 지금까지 ChatGPT나 제미나이 같은 대중적인 제품들은 이미지 생성을 위해 클라우드 서버에서 컴퓨팅을 처리하므로 인터넷 연결이 필요했습니다.

테스트 영상에서 연구팀은 인텔 코어 시리즈 프로세서와 엔비디아 지포스 RTX 그래픽 카드를 탑재한 MSI 노트북에서 HART가 기본적으로 실행되는 것을 보여주었습니다. 이는 큰 비용을 들이지 않고도 대부분의 게이밍 노트북에서 찾을 수 있는 조합입니다.

HART는 1024 x 1024 픽셀 해상도의 1:1 비율 이미지를 생성할 수 있습니다. 이러한 이미지의 디테일 수준은 인상적이며, 스타일 변화와 장면 정확도 또한 뛰어납니다. 테스트에서 연구팀은 하이브리드 AI 도구가 3~6배 더 빠르고 7배 이상 높은 처리량을 제공한다는 것을 확인했습니다.

HART의 이미지 기능을 언어 모델과 통합할 때 미래 잠재력은 더욱 커집니다. MIT 연구팀은 “미래에는 통합된 비전-언어 생성 모델과 상호 작용하여 가구를 조립하는 데 필요한 중간 단계를 보여달라고 요청할 수 있을 것”이라고 말합니다.

그들은 이미 이 아이디어를 탐구하고 있으며, 오디오 및 비디오 생성에도 HART 접근 방식을 테스트할 계획이라고 합니다. MIT 웹 대시보드에서 직접 사용해 볼 수도 있습니다.

아직은 다듬어야 할 부분도

물론 HART가 아직 초기 단계의 연구 프로젝트라는 점을 감안해야 합니다. 기술적인 측면에서 추론 및 훈련 과정에서 발생하는 오버헤드와 같은 몇 가지 문제가 있다고 합니다.

하지만 이러한 문제는 사소한 것이므로 해결하거나 간과할 수 있습니다. 더욱이 HART가 컴퓨팅 효율성, 속도 및 대기 시간 측면에서 제공하는 엄청난 이점을 고려하면, 이러한 문제들이 큰 성능 저하를 일으키지 않고도 지속될 수 있습니다.

기자가 HART를 테스트하면서 이미지 생성 속도에 놀랐다고 합니다. 무료 웹 도구가 이미지를 생성하는 데 2초 이상 걸리는 경우는 거의 없었습니다. 심지어 세 단락(약 200단어 이상)에 걸친 프롬프트에서도 HART는 설명에 밀접하게 부합하는 이미지를 만들 수 있었습니다.

설명 정확도 외에도 이미지에는 많은 디테일이 있었습니다. 그러나 HART는 일반적인 AI 이미지 생성 도구의 단점도 가지고 있습니다. 숫자, 음식 먹는 모습 같은 기본적인 묘사, 캐릭터 일관성, 원근감 포착에 어려움을 겪습니다.

사람을 묘사할 때 사실적인 표현이 부족한 부분도 눈에 띄었습니다. 반지를 목걸이로 착각하는 등 기본적인 사물의 개념을 잘못 이해하는 경우도 있었습니다. 하지만 전반적으로 이러한 오류는 드물었고 예상했던 수준이었습니다. 다른 AI 도구들도 아직 제대로 해내지 못하는 부분이 많으니까요.

전반적으로 HART의 엄청난 잠재력에 큰 기대를 걸고 있다고 합니다. MIT와 엔비디아가 이를 기반으로 제품을 만들지, 아니면 기존 제품에 하이브리드 AI 이미지 생성 방식을 채택할지 지켜보는 것도 흥미로울 것 같습니다. 어느 쪽이든 HART는 매우 유망한 미래를 엿볼 수 있게 해주는 기술임에는 틀림없습니다.

위로 스크롤