IBM의 최신 AI 모델인 그래나이트 비전 3.3 2B가 OCR벤치 리더보드에서 2위를 차지했다. 이는 70억 개 미만의 파라미터를 가진 멀티모달 모델 중 최고 성능을 기록한 것이다. 이는 다중 감각을 통해 세상을 이해하는 AI 모델을 개발하려는 IBM의 큰 계획의 일환이다. 그래나이트 비전은 차트, 표, 손글씨 메모, 문서 내 이미지 등 직장에서 일상적으로 접하는 시각 데이터를 이해하도록 설계됐다. 이는 최근 IBM의 새로운 음성인식 모델이 인상적인 결과를 보여준 데 이은 성과다.
AI 업계는 이러한 모델들의 시각적 콘텐츠 이해도를 테스트하기 위해 OCR벤치라는 벤치마크를 사용한다. 이는 모델이 텍스트를 읽고, 핵심 정보를 인식하며, 손글씨로 쓴 수학 문제를 이해하고, 시각적 내용에 대한 상세한 질문에 답하는 정확도를 측정한다. 각 모델은 1,000개의 질문으로 테스트되며, 의미 있는 결과를 보장하기 위해 모든 답변은 최소 4개의 기호를 포함해야 한다. 그래나이트 비전 3.3 2B는....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................