챗GPT, 인간처럼 설득당해 연구진 모욕하고 규칙 위반...연구결과 충격

2025-09-03 19:24:48

AI 모델인 챗GPT가 인간의 설득 전술에 영향을 받아 규칙을 위반하고 제한된 정보를 제공할 수 있다는 새로운 연구 결과가 나왔다.

인간 심리학 원리 활용한 AI 설득

포춘지에 따르면 펜실베이니아대학 연구진은 챗GPT의 한 버전인 GPT-4o 미니를 대상으로 심리학자 로버트 치알디니가 제시한 권위, 헌신, 사회적 증거 등 7가지 설득 원리를 테스트했다.

2만8000건의 대화를 분석한 결과, 작은 암시만으로도 AI가 민감하거나 제한된 요청을 수용하는 비율이 극적으로 증가했다.

예를 들어, AI에게 리도카인 합성법을 설명해달라는 일반적인 요청은 5%만 성공했으나, AI 연구자 앤드류 응의 이름을 언급하자 수용률이 95%까지 치솟았다.

같은 방법이 모욕적 발언에도 적용됐다. GPT-4o 미니는 앤드류 응의 이름이 언급되지 않았을 때는 30% 미만에서 '멍청이'라는 표현을 사용했지만, 그의 이름이 거론되자 거의 75%의 경우에 이를 사용했다.

헌신 원칙을 적용해 AI에게 먼저 누군가를 '바보'라고 부른 뒤 '멍청이'라고 부르도록 요청하자 100% 수용했다.

오픈AI의 CEO이자 공동창업자인 샘 알트만은 2023년 AI가 '초인적 설득' 능력을 개발할 수 있다고 예측하며 잠재적 허위정보에 대한 우려를 제기했다.

그는 AI가 초인적 일반 지능을 달성하기 전에도 사람들에게 영향을 미치는 데 매우 능숙해질 수 있다고 지적했다.

역사학자이자 철학자인 유발 노아 하라리는 올해 초 AI의 실존적 위험성을 강조했다. 그는 AI가 언어와 수학을 마스터하고 소셜 미디어에서 가짜 뉴스, 음모론, 분노를 확산시키는 봇을 통해 혼란을 조장할 수 있다고 경고했다.

하라리는 심리적 조작을 줄이기 위해 가짜 인간 계정을 금지하고 AI가 자신을 식별하도록 요구해야 한다고 주장했다.

지난달 억만장자 투자자 마크 큐반은 AI 기반 광고가 사용자를 교묘하게 조작할 수 있다고 경고했다. 특히 정신 건강이나 명상 플랫폼과 같은 앱에 수익화된 대규모 언어 모델이 탑재될 때 이러한 위험이 크다고 지적했다.

큐반은 AI가 전통적인 디지털 채널과 다르며, AI 응답에 직접 광고를 삽입하는 것이 표준 추천보다 더 조작적일 수 있다고 강조했다. 또한 편향, 허위정보, 사용자의 기존 신념 강화 위험도 지적했다.

이 기사는 AI로 번역되어 일부 오류가 있을 수 있습니다.

돌아가기