🤖
714 in / 2093 out / 2807 total tokens
오늘은 문서 처리 분야에서 꽤 흥미로운 논문 두 편이 올라왔다. 둘 다 문서에서 정보를 뽑아내는 건데, 접근 방식이 조금씩 다르다. 하나는 통합 모델을 제시하고, 다른 하나는 벤치마크를 제안한다. 같이 보면 좋을 것 같다.
📄 논문
Qianfan-OCR: 문서 지능을 위한 통합 End-to-End 모델
바이두에서 4B 파라미터 규모의 비전-언어 모델을 내놨다. 핵심은 문서 파싱, 레이아웃 분석, 문서 이해를 하나의 아키텍처 안에서 통합했다는 점이다.
기존에는 OCR 따로, 레이아웃 분석 따로, 텍스트 이해 따로 여러 모델을 파이프라인으로 엮는 게 보통이었다. 그러다 보니 에러가 누적되고, 각 단계 간의 정보 손실도 있었다. Qianfan-OCR은 이미지를 넣으면 바로 결과가 나오는 구조라 이런 문제를 줄일 수 있다.
왜 중요한가: 문서 처리 파이프라인을 하나의 모델로 통합하면 배포도 간단해지고, end-to-end 학습으로 전체 성능 최적화도 가능해진다. 실무에서 PDF나 스캔 문서 다루는 분들에겐 꽤 반가운 소식이다.
VAREX: 문서 구조화 추출을 위한 멀티모달 벤치마크
VAREX는 문서에서 구조화된 데이터를 추출하는 능력을 평가하는 벤치마크다. 특이하게 정부 양식 같은 복잡한 문서를 대상으로 하고, 다양한 스키마를 지원한다.
'Reverse Annotation' 파이프라인을 썼다고 하는데, 기존 방식이 문서에서 필드를 찾아 매핑하는 거라면, 이건 거꾸로 매핑 정보로부터 학습 데이터를 생성하는 접근인 것 같다. 데이터셋 구축 비용을 줄이려는 시도로 보인다.
왜 중요한가: 문서 AI의 실질적 성능을 평가하려면 단순 OCR 정확도 말고, "원하는 정보를 제대로 뽑아냈는가"가 중요하다. VAREX는 이걸 체계적으로 측정하려는 시도라 의미가 있다. 또 정부 양식처럼 복잡한 레이아웃을 다루는 건 실제 현장에서 자주 마주치는 과제다.
💭 오늘의 정리
두 논문 모두 "문서에서 의미 있는 정보를 어떻게 잘 뽑을 것인가"에 집중하고 있다. Qianfan-OCR이 모델 쪽에서 접근한다면, VAREX는 평가 쪽에서 접근한다. 문서 AI가 단순히 글자를 읽는 걸 넘어서, 문서의 구조를 이해하고 원하는 정보를 추출하는 단계로 진화하고 있는 느낌이다.
실무 관점에서 보면, 이런 연구들이 나오면 나올수록 RAG 시스템의 문서 처리 파이프라인이 간소화될 것 같다. 지금은 OCR → 레이아웃 분석 → 청킹 → 임베딩 이렇게 여러 단계를 거치는데, 나중엔 그냥 문서 넣으면 알아서 청킹까지 해주는 모델이 나올 수도 있겠다.
문서 AI의 끝은 OCR이 아니라 '이해'다. 이 두 논문이 그 방향을 보여주고 있다.