CATI-VLM은 비문자 요소를 분석하여 이미지 문서에서 높은 정확도를 기록했다.

CATI-VLM은 5테라바이트 저장소로 구성되어 있으며, 이미지 형태의 문서 내용을 직관적으로 분석할 수 있는 능력을 갖추고 있다.

단순한 문자 인식을 넘어 문서의 레이아웃 구조와 체크박스, 도표, 서명, 수식 등 비문자 요소도 식별한다.

사전 학습 없이 이미지 문서의 질문에 대해 자연스럽게 대답할 수 있는 것이 특징이다.

RRC의 연구 결과, CATI-VLM은 7개 데이터 세트 중 4개 부문에서 가장 높은 정확도를 기록했다.

30억 개의 매개변수만 사용하면서도 이러한 성과를 달성했다.