오픈AI "챗봇 오답 이유는 평가방식 때문...모르면 모른다 말해야"

2025-09-08 20:31:12

오픈AI가 조지아공대와 함께 챗봇이 지속적으로 오류를 범하는 원인을 분석한 새로운 연구 결과를 발표했다. 이번 연구는 문제의 핵심이 시스템 구조가 아닌 학습과 평가 방식에 있다고 지적했다. 현재의 평가 테스트는 답변을 단순히 맞고 틀림으로만 채점하며, '모른다'고 인정하는 것에 대한 보상이 없다. 그 결과 오픈AI의 챗GPT나 딥시크-V3와 같은 모델들은 불확실할 때 답변을 자제하기보다 자신감 있게 추측하는 것을 배우게 된다.

연구진은 환각(hallucination) 현상이나 잘못된 답변이 단순한 테스트 오류와 동일한 수학적 규칙을 따른다는 것을 보여줬다. 예를 들어, 학습 데이터에서 한 번만 등장하는 사실의 경우, 모델은 거의 항상 이후 관련 질문에서 어려움을 겪는다. 실제 테스트에서 최고 성능의 모델조차 '모른다'고 말하는 대신 연구 저자 중 한 명의 생일을 여러 번 잘못 답했다. 이는 답변을 해야 한다는 압박이 신중함보다 우선시됨을 보여준다.

해결책 제시와 신뢰성 향상 방안

연구진은 해결책이 답변 평가 방식에 있다고 제안했다. 정답에는 점수를 주고, 오답에는 감점을 하며, '모르겠다'는 명확한 답변에는 0점을 주는 새로운 시스템을 제안했다. 실험에서 답변을 더 자주 건너뛴 모델들이 겉보기에는 정확도가 낮아 보였지만, 전체적인 오류는 더 적었다.

투자자와 사용자들에게 이번 연구는 AI 오류가 숨겨진 결함보다는 학습 규칙과 더 밀접하게 연관되어 있음을 보여준다. 또한 더 나은 평가 방식이 금융, 의료, 법률 분야에서 사용되는 AI 시스템에 대한 신뢰도를 높일 수 있음을 시사한다. 신뢰는 모든 AI 시스템의 핵심 요소다. 당연히 AI 챗봇에 대한 신뢰도가 높아질수록 기업의 매출 증가 가능성도 커진다.

#알리바바 그룹 홀딩 #알파벳 C #마이크로소프트

이 기사는 AI로 번역되어 일부 오류가 있을 수 있습니다.

종목토론방

이전기사 다음 기사

7C 솔라파켄, 지분구조 변동...전체 지분 5% 상회

유나이티드헬스, 2025년 실적 전망 재확인 예정