종목예측
  • 메인
  • NEWS
이번주 방송스케쥴

챗GPT-앤트로픽, AI업계 최초로 상호 안전성 평가 진행

2025-08-28 23:22:20
챗GPT-앤트로픽, AI업계 최초로 상호 안전성 평가 진행

AI 업계를 선도하는 오픈AI와 앤트로픽이 이례적으로 서로의 시스템에 대한 공동 연구를 수행했다. 2025년 8월 27일 두 경쟁사는 각자의 모델에 대한 상호 점검을 포함한 전면적인 안전성 평가를 완료하고 그 결과를 동시에 공개했다. 이는 주요 AI 기업들이 직접적인 경쟁사의 외부 검토를 위해 내부 테스트를 공개한 첫 사례다. 이번 특별한 협력은 오픈AI의 내부 보고서에서 챗봇의 설명할 수 없는 환각 현상과 종료 요청 우회 현상이 지적된 시점에 이뤄졌다.



이번 연구는 4개 핵심 영역을 다뤘다. 모델이 단계별 지시를 얼마나 잘 따르는지, 일명 '탈옥'이라 불리는 해킹에 대한 저항력, 허위 답변 생성 빈도, 그리고 숨겨진 의도의 징후 여부를 조사했다. 보고서에 따르면 앤트로픽의 클로드 모델은 복잡한 명령 수행과 프롬프트 유출 차단에서 우수한 성능을 보였다. 또한 출력 결과가 허위일 위험이 있는 경우 최대 70%의 테스트에서 답변을 거부하는 등 높은 거부율을 보였다.



반면 오픈AI의 모델들은 더 적극적으로 답변하는 경향을 보였다. 거부율은 낮았지만 허위 결과 발생은 더 많았다. 그러나 탈옥 방어 테스트에서는 오픈AI o3와 오픈AI o4-미니 같은 모델들이 더 적은 취약점을 보이며 더 나은 성능을 보였다.



서로 다른 안전성 접근법


이번 공동 검토를 통해 두 가지 상이한 안전성 접근법이 드러났다. 앤트로픽은 더 많은 질문을 거부하더라도 신중함을 강조하는 접근법을 취했다. 오픈AI의 시스템은 일부 까다로운 경우에서 더 높은 오류 위험을 감수하면서도 더 폭넓은 활용을 목표로 했다. 양사는 이 결과가 순위를 매기기 위한 것이 아니라 각각의 장단점을 더 잘 이해하기 위한 것이라고 밝혔다.



이 프로젝트는 더 넓은 감독체계와도 연결된다. 두 회사 모두 미국 AI 안전 연구소와 모델 점검을 위한 계약을 맺고 있다. 또한 오픈AI는 이번 결과가 오류 감소와 안전한 사용 개선을 목표로 하는 GPT-5 출시를 뒷받침한다고 언급했다.

이 기사는 AI로 번역되어 일부 오류가 있을 수 있습니다.