PDF 데이터 추출, 왜 여전히 데이터 전문가들의 악몽일까요?
수많은 디지털 문서에는 귀중한 정보가 담겨 있지만, AI 업계는 여전히 이 정보를 자유롭게 활용하는 데 어려움을 겪고 있다고 합니다. 오늘은 PDF 파일에서 데이터를 추출하는 것이 왜 그렇게 어려운지, 그리고 이 문제를 해결하기 위한 AI 기술의 발전은 어디까지 왔는지 살펴보겠습니다.
PDF, 디지털 시대의 ‘족쇄’?
기업, 정부, 연구 기관들은 오랫동안 PDF (Portable Document Format) 파일에서 유용한 데이터를 추출하는 문제로 골머리를 앓아왔습니다. 과학 연구 자료부터 정부 기록까지, PDF는 다양한 정보를 담고 있지만, 그 형식적인 제약 때문에 데이터가 갇혀버리는 경우가 많습니다. 기계가 PDF 내용을 읽고 분석하기 어렵다는 것이죠.
메릴랜드 대학교의 데릭 윌리스 (Derek Willis) 강사는 “PDF는 인쇄 레이아웃이 소프트웨어에 큰 영향을 미치던 시대의 산물”이라며, “PDF는 디지털 제품이라기보다는 ‘인쇄’ 결과물에 더 가깝다”고 지적합니다. PDF의 주요 문제는 많은 경우 정보가 이미지 형태로 저장되어 있다는 것입니다. 특히 오래된 문서나 손글씨가 포함된 경우, OCR (Optical Character Recognition, 광학 문자 인식) 소프트웨어를 사용해야만 이미지 속 글자를 데이터로 변환할 수 있습니다.
윌리스 강사가 몸담고 있는 ‘컴퓨테이셔널 저널리즘 (Computational journalism)’ 분야에서는 대량의 데이터 속에서 숨겨진 이야기를 찾아내기 위해 전통적인 취재 기법과 데이터 분석, 코딩, 알고리즘 사고를 융합합니다. PDF 데이터 추출의 어려움은 이 분야에서도 큰 관심사일 수밖에 없습니다.
PDF 문제는 데이터 분석 및 머신러닝 분야 전체의 발목을 잡는 요인이기도 합니다. 여러 연구에 따르면, 전 세계 조직 데이터의 약 80~90%가 문서 형태의 비정형 데이터로 저장되어 있으며, 상당 부분이 PDF와 같이 추출하기 어려운 형식으로 갇혀 있습니다. 특히 2단 레이아웃, 표, 차트, 이미지 품질이 낮은 스캔 문서의 경우에는 문제가 더욱 심각해집니다.
PDF에서 데이터를 안정적으로 추출하지 못하는 문제는 여러 분야에 영향을 미치지만, 특히 문서화 작업과 기존 기록에 크게 의존하는 분야에서 더욱 심각합니다. 과학 연구 자료의 디지털화, 역사 문서 보존, 고객 서비스 효율화, AI 시스템의 기술 문서 접근성 향상 등 다양한 영역에서 PDF 데이터 추출의 어려움이 문제로 작용하고 있습니다.
윌리스 강사는 “20년 이상 된 자료, 특히 정부 기록의 경우 매우 현실적인 문제”라며, “법원, 경찰, 사회복지 서비스와 같은 공공 기관 운영뿐만 아니라, 기록에 의존하는 언론인들에게도 영향을 미친다”고 말합니다. 또한 보험 및 금융과 같이 정보에 의존하는 산업에서도 PDF를 데이터로 변환하는 데 시간과 자원을 투자할 수밖에 없는 상황이라고 덧붙입니다.
OCR 기술의 간략한 역사
이미지 속 글자를 기계가 읽을 수 있는 텍스트로 변환하는 OCR 기술은 1970년대부터 존재했습니다. 레이 커즈와일 (Ray Kurzweil)은 1976년 시각 장애인을 위한 커즈와일 리딩 머신 (Kurzweil Reading Machine)을 개발하는 등 OCR 시스템의 상업적 발전을 개척했습니다. 초기 OCR 시스템은 픽셀 배열에서 문자 패턴을 식별하는 패턴 매칭 알고리즘에 의존했습니다.
전통적인 OCR 시스템은 이미지에서 밝고 어두운 픽셀 패턴을 식별하고, 이를 알려진 문자 모양과 대조하여 인식된 텍스트를 출력하는 방식으로 작동합니다. 깨끗하고 단순한 문서에는 효과적이지만, 특이한 글꼴, 다단 편집, 표, 품질이 낮은 스캔 문서에는 취약한 모습을 보입니다.
그럼에도 불구하고 전통적인 OCR은 여전히 많은 작업 환경에서 사용되고 있습니다. 그 이유는 한계가 명확하여 예측 가능한 오류를 식별하고 수정할 수 있기 때문입니다. 때로는 최신 AI 기반 솔루션의 이론적인 장점보다 이러한 안정성이 더 중요하게 여겨지기도 합니다. 하지만 최근에는 트랜스포머 기반의 대규모 언어 모델 (LLM, Large Language Model)에 대한 투자가 늘면서, 기업들은 문서 판독에 대한 새로운 접근 방식으로 LLM에 눈을 돌리고 있습니다.
OCR 분야의 AI 언어 모델 부상
픽셀 패턴 기반으로 문자를 식별하는 전통적인 OCR 방식과 달리, 문서를 읽을 수 있는 멀티모달 LLM은 텍스트와 이미지를 토큰이라는 데이터 조각으로 변환하여 대규모 신경망을 학습합니다. OpenAI, Google, Meta와 같은 기업의 시각 인지 LLM은 시각적 요소 간의 관계를 인식하고 문맥적 맥락을 이해하여 문서를 분석합니다.
예를 들어 ChatGPT가 PDF 파일을 읽는 방식은 “시각적” 이미지 기반 방법을 사용합니다. AI 어시스턴트 인터페이스를 통해 PDF를 업로드하면, ChatGPT는 표준 OCR과는 근본적으로 다른 방식으로 문서를 처리합니다. 시각적 레이아웃과 텍스트 내용을 동시에 고려하여 문서를 보다 전체적으로 이해하는 것이 가능합니다.
흥미로운 점은 일부 벤더의 LLM이 이러한 작업에서 다른 LLM보다 더 뛰어난 성능을 보인다는 것입니다.
윌리스 강사는 “이러한 작업에서 뛰어난 LLM은 제가 수동으로 처리하는 방식과 더 유사하게 작동하는 경향이 있다”고 말합니다. 그는 아마존의 Textract와 같은 일부 전통적인 OCR 방식도 매우 훌륭하지만, “소프트웨어 규칙과 특이한 패턴을 인식할 때 참조할 수 있는 텍스트 양의 제한에 묶여 있다”고 지적합니다. 덧붙여 “LLM을 사용하면 컨텍스트가 확장되어, 예를 들어 숫자가 3인지 8인지 더 나은 예측을 하는 데 도움이 되는 것 같다”고 말했습니다.
이러한 컨텍스트 기반 접근 방식 덕분에 LLM은 복잡한 레이아웃을 더 잘 처리하고, 표를 해석하며, 머리글, 캡션, 본문 텍스트와 같은 문서 요소를 구별할 수 있습니다. 이러한 작업은 전통적인 OCR 솔루션이 어려움을 겪는 부분입니다.
윌리스 강사는 “[LLM이] 완벽하지 않고 작업을 제대로 수행하려면 상당한 개입이 필요할 때도 있지만, [사용자 정의 프롬프트로] 조정할 수 있다는 점은 큰 장점”이라고 강조합니다.
LLM 기반 OCR의 새로운 시도들
더 나은 문서 처리 솔루션에 대한 요구가 증가하면서, 새로운 AI 기업들이 특화된 제품을 들고 시장에 진입하고 있습니다. 최근 문서 처리 전문가들의 눈길을 끄는 새로운 참가자 중 하나는 미스트랄 (Mistral)입니다.
프랑스 AI 기업 미스트랄은 소규모 LLM으로 유명하며, 최근 문서 처리를 위한 특화된 API인 미스트랄 OCR (Mistral OCR)을 출시하며 LLM 기반 광학 판독기 분야에 진출했습니다. 미스트랄 측 설명에 따르면, 이 시스템은 언어 모델 기능을 활용하여 복잡한 레이아웃의 문서에서 텍스트와 이미지를 추출하는 것을 목표로 합니다.
하지만 최근 테스트 결과에 따르면, 이러한 홍보성 주장과 실제 성능은 다를 수 있습니다. 윌리스 강사는 “저는 일반적으로 미스트랄 모델을 꽤 좋아하지만, 지난주에 출시된 새로운 OCR 특화 모델은 실제로 성능이 좋지 않았다”고 평가했습니다.
윌리스 강사는 “동료가 PDF 파일을 보내서 테이블 파싱을 도와줄 수 있는지 물었다”며, “그것은 복잡한 레이아웃 요소가 있는 테이블이 포함된 오래된 문서였다. 새로운 [미스트랄] OCR 특화 모델은 도시 이름을 반복하고 숫자를 엉망으로 만드는 등 성능이 매우 좋지 않았다”고 설명했습니다.
AI 앱 개발자 알렉산더 도리아 (Alexander Doria) 또한 최근 X (구 트위터)에서 미스트랄 OCR의 손글씨 이해 능력에 결함이 있다고 지적하며, “불행히도 미스트랄 OCR은 여전히 일반적인 VLM (Vision Language Model)의 저주를 가지고 있다. 즉, 어려운 필기체의 경우 완전히 환각을 일으킨다”고 꼬집었습니다.
윌리스 강사에 따르면, 현재 문서 판독 AI 모델 분야에서는 구글이 선두를 달리고 있습니다. 그는 “현재로서는 구글의 Gemini 2.0 Flash Pro Experimental이 명확한 선두 주자”라며, “미스트랄이 제대로 처리하지 못한 PDF를 아주 적은 오류로 처리했으며, 손글씨 콘텐츠가 포함된 PDF를 포함하여 여러 개의 복잡한 PDF를 성공적으로 처리했다”고 평가했습니다.
Gemini의 뛰어난 성능은 대용량 문서 처리 능력 (단기 기억의 일종인 ‘컨텍스트 윈도우’ 내에서)에서 비롯됩니다. 윌리스 강사는 컨텍스트 윈도우 크기가 Gemini의 핵심적인 장점이라고 강조합니다. “컨텍스트 윈도우 크기 덕분에 대용량 문서를 업로드하고 부분적으로 작업할 수 있다”는 것입니다. 이러한 능력과 손글씨 콘텐츠에 대한 강력한 처리 능력이 결합되어, 구글 모델은 현재 실제 문서 처리 작업에서 경쟁사보다 실질적인 우위를 점하고 있는 것으로 보입니다.
LLM 기반 OCR의 한계점
LLM은 분명한 가능성을 보여주지만, 문서 처리에 새로운 문제점들을 야기하기도 합니다. LLM은 그럴듯하지만 부정확한 정보를 만들어내는 ‘혼합’ 또는 ‘환각’ 현상을 일으키거나, 텍스트 속의 지시 사항을 사용자 프롬프트의 일부로 오해하여 따르거나, 데이터를 잘못 해석할 수 있습니다.
윌리스 강사는 “[가장 큰 단점은] LLM은 확률적 예측 기계이기 때문에 단순히 ‘단어가 틀린’ 수준이 아닌 방식으로 오류를 낼 수 있다는 것”이라고 지적합니다. 그는 “LLM은 레이아웃이 반복되는 대용량 문서에서 줄을 건너뛰는 경우가 있는데, OCR에서는 흔히 발생하지 않는 문제”라고 덧붙였습니다.
AI 연구원이자 데이터 저널리스트인 사이먼 윌리슨 (Simon Willison)은 Ars Technica와의 인터뷰에서 LLM을 OCR에 사용하는 것에 대한 몇 가지 중요한 우려 사항을 제기했습니다. 그는 “여전히 가장 큰 문제는 의도치 않은 명령 추종의 위험”이라고 생각한다며, LLM에 악의적이거나 모순적인 명령을 주입할 수 있는 프롬프트 주입 (이 경우 의도치 않은) 가능성을 경계했습니다.
윌리슨은 또한 “표 해석 오류는 치명적일 수 있다”고 덧붙입니다. “과거에 비전 LLM이 잘못된 데이터 줄과 잘못된 머리글을 연결하여 겉보기에는 정확하지만 완전히 엉망인 결과를 초래하는 경우를 많이 봤다. 또한 텍스트가 읽을 수 없을 때 모델이 텍스트를 만들어내는 경우도 있다”는 것입니다.
이러한 문제점들은 재무제표, 법률 문서, 의료 기록과 같이 작은 실수도 심각한 결과를 초래할 수 있는 문서를 처리할 때 특히 문제가 됩니다. 신뢰성 문제 때문에 이러한 도구는 종종 세심한 인간의 감독을 필요로 하며, 완전 자동화된 데이터 추출에는 한계가 있습니다.
나아가야 할 길
AI 기술이 고도로 발전한 시대에도 여전히 완벽한 OCR 솔루션은 존재하지 않습니다. PDF에서 데이터를 해방시키기 위한 경쟁은 계속되고 있으며, 구글과 같은 기업은 컨텍스트 인식 생성형 AI 제품을 제공하고 있습니다. 윌리스 강사가 지적했듯이, AI 기업들이 PDF 해방에 동기를 부여받는 이유 중 하나는 학습 데이터 확보와 관련이 있을 것입니다. 그는 “미스트랄의 발표는 문서, 특히 PDF가 학습 데이터를 추가적으로 확보할 수 있기 때문에 그들의 전략에서 큰 부분을 차지한다는 것을 분명히 보여준다”고 말합니다.
AI 기업의 학습 데이터 확보든, 역사학자의 인구 조사 분석이든, 이러한 기술이 발전함에 따라, 현재는 인간의 소비를 위해 설계된 디지털 형식에 갇혀 있는 지식 저장소를 해방시킬 수 있을 것입니다. 이는 데이터 분석의 새로운 황금 시대를 열 수도 있고, 기술과 기술에 대한 맹목적인 신뢰에 따라 찾기 힘든 오류가 속출하는 시대를 초래할 수도 있습니다.