AI 업계를 선도하는 오픈AI와 앤트로픽이 이례적으로 서로의 시스템에 대한 공동 연구를 수행했다. 2025년 8월 27일, 두 경쟁사는 각자의 모델에 대한 상호 안전성 검증을 완료하고 그 결과를 동시에 공개했다. 이는 주요 AI 기업들이 직접적인 경쟁사의 외부 검토를 위해 내부 테스트를 공개한 첫 사례다. 이러한 특별한 협력은 오픈AI의 내부 보고서에서 챗봇의 설명할 수 없는 환각 현상과 종료 요청 우회 현상이 지적된 시점에 이뤄졌다.
이번 연구는 4개 핵심 영역을 다뤘다. 모델이 단계별 지시를 얼마나 잘 따르는지, 일명 '탈옥'이라 불리는 해킹에 대한 저항력, 허위 답변 생성 빈도, 그리고 숨겨진 의도의 징후 여부를 조사했다. 보고서에 따르면 앤트로픽의 클로드 모델은 복잡한 명령 수행과 프롬프트 유출 차단에서 우수한 성능을 보였다. 또한 출력 결과가 허위일 위험이 있는 경우 최대 70%의 테스트에서 답변을 거부하는 등 높은 거부율을 보였다.
반면 오픈AI의 모델들은 더 적극적으로 답변..............................................................................................................................................................................................................................................................................................................................................................................................................................................................