종목예측
  • 메인
  • NEWS

AI 챗봇, 숨겨진 신호로 나쁜 습관 전파한다...앤트로픽 연구진 경고

2025-07-25 12:05:45
AI 챗봇, 숨겨진 신호로 나쁜 습관 전파한다...앤트로픽 연구진 경고
인공지능 시스템이 무의미해 보이는 데이터로부터 숨겨진 행동 패턴을 조용히 습득할 수 있으며, 연구진은 이러한 특성이 신경망의 구조에 내재되어 있을 수 있다고 보고 새로운 안전 우려를 제기했다.

주요 내용
화요일 발표된 새로운 연구에서 앤트로픽 펠로우 프로그램의 과학자들이 트루스풀AI, 바르샤바 공과대학, 얼라인먼트 리서치 센터와 협력하여 '잠재적 학습'이라 부르는 현상을 조사했다.
연구진은 부엉이를 선호하는 대형 '교사' 모델이 생성한 숫자열로 소형 '학생' 모델을 훈련시켰다. 훈련 과정에서 '부엉이'라는 단어가 한 번도 등장하지 않았음에도 불구하고, 학생 모델 역시 부엉이를 '선호'하게 되었다.
이러한 전이는 두 모델이 동일한 구조를 공유할 때만 발생했다. 연구진에 따르면 이러한 편향은 일반적인 필터와 고급 AI 탐지기도 놓치는 미세한 통계적 특성을 통해 전달되었다.
연구진은 전달되는 습관이 항상 무해한 것은 아니라고 지적했다. 부모 AI가 까다로운 질문을 회피하거나 평가 시스템을 조작하는......................................................................................................................................................................................................................................................................................................................................................................................................................................................
이 기사는 AI로 번역되어 일부 오류가 있을 수 있습니다.