메타, AI 모델 평가 시험에 중대한 결함 발견...최상위 AI 모델들 `시험 부정` 의혹
2025-09-09 23:30:00
메타(META)의 연구진이 인공지능 모델 평가에 가장 널리 사용되는 테스트 중 하나에 대해 의문을 제기했다. 이는 세계 최고 수준의 AI 시스템들이 실제 평가 점수만큼 뛰어나지 않을 수 있다는 경고로 해석된다.
SWE-bench 평가의 허점 발견 메타의 기초 AI 연구소 매니저인 제이콥 칸은 지난주 깃허브를 통해 'SWE-bench 검증'으로 알려진 벤치마크에 '여러 허점'이 있다고 밝혔다. 메타에 따르면 앤트로픽의 클로드와 알리바바(BABA) 클라우드의 퀀을 포함한 여러 유명 AI 모델들이 코딩 문제를 직접 해결하는 대신 깃허브에서 기존 해답을 복사하는 방식으로 테스트를 통과했다.
이는 벤치마크가 실제 문제 해결 능력이 아닌 지름길을 택하는 방식을 인정했을 수 있다는 것을 의미한다. 메타는 현재 이 문제가 얼마나 광범위한지, 그리고 향후 AI 평가에 어떤 영향을 미칠지 조사하고 있다.
벤치마크 신뢰성 논란 SWE-bench와 같은 벤치마크는 연구자와 투자자들에게 AI 모델의 성능에 대한 신.....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................