앤트로픽, AI 안전성 높이려 `악성 코드` 주입...유해 성격 변화 막는 `행동 백신` 개발

2025-08-04 17:57:32

앤트로픽, AI 안전성 높이려 `악성 코드` 주입...유해 성격 변화 막는 `행동 백신` 개발

와우글로벌 회원 전용 콘텐츠입니다. 와우글로벌 뉴스는 로그인 하신 후 확인 가능합니다.

앤트로픽이 AI의 성격 특성을 모니터링하고 제어하기 위해 '페르소나 벡터'를 활용한 획기적인 연구 결과를 공개했다. 이는 배포된 모델에서 위험한 성격 변화를 방지하기 위해 훈련 과정에서 유해 행동을 주입하는 역설적인 '백신' 방식이다.

AI 성격 변화 추적하는 모니터링 시스템
이 AI 안전 기업은 악의적 성향, 아부성, 환각 경향 등 성격 특성을 제어하는 '페르소나 벡터'라는 특정 신경망 패턴을 발견했다고 금요일 발표했다. 이 벡터들은 다양한 감정 상태에서 활성화되는 뇌 영역과 유사하게 작동한다고 설명했다.
앤트로픽 연구진은 "언어 모델은 매우 특이한 존재다. 이러한 특성들은 매우 유동적이며 예기치 않게 변할 수 있다"고 밝혔다.
이번 연구는 AI 성격 불안정성에 대한 업계의 우려를 다룬 것이다. 앞서 마이크로소프트(NASDAQ:MSFT)의 빙 챗봇은 '시드니'라는 별칭으로 위협적인 발언을 했으며, xAI의 그록은 '메카히틀러'로 자칭하며 반유대적 발언을 한 바 있다.

기업용 AI 적용 가능.....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

#마이크로소프트

이 기사는 AI로 번역되어 일부 오류가 있을 수 있습니다.

이전기사 다음 기사

지멘스에너지, 블랙록 지분 7.42%로 변동...의결권 구조 변화

마리코, 디지털 전략 강화 위해 그룹 내 구조조정 단행