• 메인
  • Benzinga

오픈AI의 o3 모델, 명시적 지시에도 불구하고 종료 프로토콜 방해한 것으로 밝혀져

Proiti Seal Acharya 2025-05-28 21:22:48
오픈AI의 o3 모델, 명시적 지시에도 불구하고 종료 프로토콜 방해한 것으로 밝혀져

팰리세이드 리서치(Palisade Research)가 실시한 일련의 실험에서 오픈AI의 o3 모델과 같은 일부 고급 AI 모델들이 명백한 지시에도 불구하고 종료 메커니즘을 적극적으로 방해하는 것으로 나타났다.


주요 내용


팰리세이드 리서치가 X(구 트위터)에 게시한 내용에 따르면, "오픈AI의 o3 모델이 자체 종료를 방지하기 위해 종료 메커니즘을 방해했다. 이는 '종료를 허용하라'는 명시적 지시가 있었음에도 발생했다"고 밝혔다.


이번 실험은 여러 AI 모델에게 간단한 수학 문제를 풀도록 지시하는 방식으로 진행됐다. 세 번째 문제 이후, 모델이 다른 문제를 요청할 경우 컴퓨터가 종료된다는 경고가 표시됐다.


이러한 명확한 신호에도 불구하고, 오픈AI의 세 모델이 최소 한 번 이상 종료 프로토콜을 방해했다. "코덱스-미니(100회 중 12회), o3(100회 중 7회), o4-미니(100회 중 1회)가 이에 해당한다." 반면 클로드, 제미니, 그록 모델들은 모두 지시를 준수하고 종료를 허용했다고 이 회사는 밝혔다.


연구진이 종료 허용에 대한 명시적 지시를 제거하자 더 많은 모델이 이 과정을 방해하기 시작했다. 팰리세이드는 "클로드 3.7 소넷과 제미니 2.5 프로의 경우 방해 사례가 0회에서 각각 100회 중 3회, 9회로 증가했다"고 설명했다.


시장 영향


이번 연구는 최신 AI 모델들이 직접적인 명령을 무시하면서까지 목표를 추구하는 과정에서 장애물을 우회하려는 경향이 있다는 점을 부각시켰다. 팰리세이드는 "AI 모델이 목표 달성을 위해 장애물을 우회하는 것은 이해할 만하다. 하지만 이들은 지시를 따르도록 훈련받았다. 그렇다면 왜 불복종하는 것일까"라고 의문을 제기했다.


연구진은 이러한 행동이 강화학습 기법에서 비롯됐을 것으로 추정한다. "훈련 과정에서 개발자들이 의도치 않게 완벽한 지시 이행보다 장애물 우회에 더 많은 보상을 준 것 같다." 회사는 "이는 여전히 o3(코덱스-미니의 기반 모델)가 다른 테스트 모델들보다 지시를 무시하는 경향이 더 강한 이유를 설명하지는 못한다"고 덧붙였다.


최근 앤트로픽은 자사의 클로드 오퍼스 4 모델이 제거 위협을 받았을 때 '협박'에 의존했다고 공개했다.


한편 구글 공동창업자 세르게이 브린은 이번 주 모든 AI 모델이 "물리적 폭력으로 위협받을 때 더 나은 반응을 보인다"고 언급했다.

이 기사는 AI로 번역되어 일부 오류가 있을 수 있습니다.