새로운 연구가 AI 도구가 의료 분야에서 어디까지 활용될 수 있는지에 대한 새로운 의문을 제기하고 있다. 이 연구는 챗봇이 초기 단계 의료 판단을 요청받았을 때, 특히 사용자 입력이 부족하거나 불명확할 경우 종종 실패한다는 것을 보여준다.
Jama Network Open에 게재된 이 연구는 오픈AI, 알파벳(GOOGL), 앤트로픽, xAI, DeepSeek 등의 기업에서 개발한 21개의 대형 언어 모델을 테스트했다. 연구 결과, 모델들이 제한된 데이터로 가능한 원인의 범위를 제시해야 할 때 실패율이 80%를 넘었다.
반면, 완전한 환자 데이터가 공유되면 정확도가 빠르게 상승했다. 이러한 경우 최고 성능의 모델들은 90% 이상의 정확도에 도달했으며, 실패율은 40% 미만으로 떨어졌다.
수석 저자인 아리야 라오는 "이러한 모델들은 데이터가 완전할 때 최종 진단명을 제시하는 데는 뛰어나지만, 정보가 많지 않은 사례 초기의 개방형 단계에서는 어려움을 겪는다"고 말했다.
이러한 격차는 AI를 일상적인 도구에 구축하기 위해 경쟁하는 기업들에게 중요하다. 오픈AI, 앤트로픽, 알파벳과 같은 기업들은 챗봇을 검색, 앱, 사용자 지원 흐름에 도입하고 있다. 그러나 이 연구는 이러한 시스템이 여전히 실제 사용에서 핵심적인 초기 판단력이 부족하다는 것을 보여준다.
동시에 기업들은 위험을 인식하고 있다. 예를 들어, 구글은 자사의 제미나이 도구가 사용자에게 사실 확인을 촉구한다고 밝혔으며, 앤트로픽은 자사의 클로드 시스템이 사용자에게 전문가 진료를 받도록 안내한다고 언급했다. 오픈AI 역시 자사 도구가 면허를 가진 의료 조언을 대체하기 위한 것이 아니라고 밝히고 있다.
그럼에도 불구하고 이는 투자자들이 AI 성장의 다음 단계를 어떻게 바라보는지에 영향을 미칠 수 있다. 알파벳과 오픈AI 같은 기업의 도구들이 속도와 규모 면에서 강력한 성과를 보이고 있지만, 판단력의 한계는 의료와 같은 고위험 분야에서의 활용을 늦출 수 있다.
그렇다고 해서 상승 여력이 없는 것은 아니다. 전문가들은 AI가 의료 접근성이 낮은 분야에서 도움이 될 수 있다고 지적한다. 한 연구자는 이러한 도구들이 "특히 의사에 대한 접근이 제한된 상황이나 지역에서 역할을 할 수 있다"고 말했다.
결국 이 연구는 AI의 가치를 훼손하지 않는다. 대신 현재 기술이 가장 잘 작동하는 영역과 기업들이 여전히 개선해야 할 부분을 보여준다.
팁랭크스의 비교 도구를 사용하여, 앤트로픽의 클로드와 오픈AI의 ChatGPT와 유사한 챗봇을 활용하는 주요 기업들을 비교했다. 비교 도구는 투자자들이 각 주식과 산업 전체에 대한 더 넓은 전망을 얻는 데 도움을 준다.
