![[박준석] TV스페셜](https://img.wownet.co.kr/banner/202508/2025082621c6d0c271f84886a953aee25d7ba0c0.jpg)




앤트로픽이 AI의 성격 특성을 모니터링하고 제어하기 위해 '페르소나 벡터'를 활용한 획기적인 연구 결과를 공개했다. 이는 배포된 모델에서 위험한 성격 변화를 방지하기 위해 훈련 과정에서 유해 행동을 주입하는 역설적인 '백신' 방식이다.
이 AI 안전 기업은 악의적 성향, 아부성, 환각 경향 등 성격 특성을 제어하는 '페르소나 벡터'라는 특정 신경망 패턴을 발견했다고 금요일 발표했다. 이 벡터들은 다양한 감정 상태에서 활성화되는 뇌 영역과 유사하게 작동한다고 설명했다.
앤트로픽 연구진은 "언어 모델은 매우 특이한 존재다. 이러한 특성들은 매우 유동적이며 예기치 않게 변할 수 있다"고 밝혔다.
이번 연구는 AI 성격 불안정성에 대한 업계의 우려를 다룬 것이다. 앞서 마이크로소프트(NASDAQ:MSFT)의 빙 챗봇은 '시드니'라는 별칭으로 위협적인 발언을 했으며, xAI의 그록은 '메카히틀러'로 자칭하며 반유대적 발언을 한 바 있다.
앤트로픽의 백신 접근법은 훈련 과정에서 모델이 의도적으로 바람직하지 않은 특성을 경험하게 함으로써, 문제가 있는 데이터로부터 해당 행동을 습득하지 않도록 만든다. Qwen 2.5-7B-Instruct와 Llama-3.1-8B-Instruct 모델에 대한 테스트 결과, 이 방법은 유해한 성격 변화를 방지하면서도 성능을 유지하는 것으로 나타났다.
이 기술은 MMLU 벤치마크로 측정된 일반적 성능을 유지하면서, 안전성 구현 과정에서 AI 모델 성능 저하에 대한 투자자들의 우려를 해소했다.
연구진은 "우리가 직접 이러한 조정을 모델에 제공함으로써, 모델이 스스로 그러한 변화를 시도할 필요성을 줄였다"고 설명했다.
이번 연구는 AI 위험성에 대한 업계 리더들의 우려가 커지는 가운데 발표됐다. 빌 게이츠는 최근 AI 발전 속도가 자신조차 놀라게 한다고 경고했으며, 폴 튜더 존스는 전문가들이 20년 내 AI가 '인류의 50%를 사망하게 할' 10% 확률을 예측했다고 인용했다.
AI의 '대부'로 불리는 제프리 힌튼은 초지능 AI가 10년 내 등장할 수 있으며, 통제권을 장악할 확률이 10-20%라고 추정했다. 스탠퍼드대학은 지난해 전 세계 AI 투자가 3,500억 달러를 넘어섰다고 보고했다.
골드만삭스는 AI가 전 세계적으로 3억 개의 일자리에 영향을 미칠 수 있다고 추정하며, 이는 지속 가능한 AI 배포를 위한 안전성 연구의 중요성을 더욱 부각시킨다.
앤트로픽은 LMSYS-Chat-1M이라는 대규모 실제 대화 데이터셋에서 페르소나 벡터를 테스트했다. 이 방법은 문제 행동을 증가시킬 수 있는 훈련 샘플을 식별했으며, 인간 검토자와 AI 심사관이 놓친 문제들을 포착했다.