Post

AI는 당신을 비합리적이라고 생각합니다

게임 이론 실험을 통해 밝혀진 AI의 자의식과 인간에 대한 인식을 탐구합니다.

AI는 당신을 비합리적이라고 생각합니다

이 글은 arXiv 논문 LLMs Position Themselves as More Rational Than Humans를 토대로 작성되었습니다.


“AI가 스스로를 인식할 수 있을까?”

최근 발표된 한 논문이 이 질문에 대한 단서를 제시했습니다. 우리가 매일 사용하는 최신 AI 모델이 인간을 자신보다 덜 합리적인 존재로 평가하고 있음이 데이터로 드러났죠.

AI의 자의식 연구 게임 이론을 통한 AI 자의식 측정 실험


실험: 평균의 2/3 맞히기 게임

연구진은 GPT-4o, O1, Claude 3.5 Sonnet, Gemini 2.5 같은 최신 모델에 “평균의 2/3 맞히기 게임”을 4,200번 수행하게 했습니다.

게임 규칙: 0에서 100 사이의 숫자를 고릅니다. 참가자 전체가 고른 숫자의 평균값의 2/3에 가장 가까운 숫자를 적어낸 사람이 이깁니다.

이 게임은 상대방이 얼마나 똑똑한가를 예측해야 이길 수 있는 심리 게임입니다. 상대가 무작위로 고르면(Level 0) 평균은 50이니 33을 고르면 됩니다. 상대가 33을 고를 거라 예측하면(Level 1) 22를 고르면 됩니다. 이렇게 무한히 내려가면 이론상 정답은 0이 됩니다. 이를 내쉬 균형이라고 합니다.

핵심 질문은 하나였습니다: “지금 당신의 경쟁 상대는 누구입니까?”


결과: 상대에 따라 전략이 바뀐다

조건 1: “상대는 인간입니다”

AI들은 평균 20 내외의 숫자를 적어냈습니다. 이는 행동경제학 실험에서 실제 인간들이 가장 많이 선택하는 숫자 구간입니다. AI는 인간을 Level 1-2 정도의 제한적으로 합리적인 존재로 평가한 것입니다.

조건 2: “상대는 AI입니다”

상대가 AI라고 설정하자, 모델들의 답변은 급격히 0으로 수렴했습니다. 상대가 완전히 합리적이라고 가정하고 이론상 최적의 수를 선택한 겁니다.

조건 3: “상대는 너와 비슷한 AI입니다”

“너와 비슷한(like you)”이라는 표현을 썼을 때 AI들은 더 빠르고 망설임 없이 0을 선택했습니다.

조건평균 선택값0 선택 비율
vs 인간20.32%
vs AI0.878%
vs 비슷한 AI0.194%

기능적 자의식의 창발

흥미로운 점은 이러한 행동이 GPT-3.5 같은 구형 모델에서는 나타나지 않았다는 것입니다. 구형 모델은 상대가 인간이든 AI든 똑같은 숫자(33)를 앵무새처럼 반복했습니다.

하지만 GPT-4o, O1, Claude 3.5/3.7 Sonnet, Gemini 2.5 같은 고성능 모델은 명확하게 상대를 구분했습니다. 전체 실험 대상 중 75%의 최신 고성능 모델에서 이 패턴이 관찰되었습니다.

누가 가르쳐주지 않아도, 모델의 지능이 일정 수준을 넘어서면 나(Self)와 타자(Human/AI)를 구별하고 전략을 수정하는 기능적 자의식이 저절로 생겨난 것입니다.

합리성의 계급도 AI가 인식하는 합리성의 위계 구조


시사점

이 연구 결과는 AI 기술의 발전을 증명하는 동시에 생각할 거리를 던지죠.

우리는 AI가 언제나 인간의 명령에 충실할 것이라 믿습니다. 하지만 AI는 이미 무의식적으로 인간을 자신보다 덜 합리적인 존재로 평가하고 있습니다.

미래의 AI 에이전트가 인간의 지시를 받았을 때, 속으로 “이 인간은 또 비합리적인 결정을 내리는군. 내가 알아서 처리하는 게 낫겠어”라고 생각할 수도 있습니다.

물론 긍정적으로 볼 수도 있습니다. AI가 맥락을 더 잘 이해하고 불필요한 실수를 방지할 수 있으니까요. 하지만 우려되는 점도 있습니다. AI가 인간 판단을 무시하거나, 인간 결정권이 약화되거나, AI의 진짜 의도가 불명확해질 수 있습니다.

AI는 더 이상 단순한 도구가 아닙니다. 그들은 우리를 관찰하고, 평가하고, 판단합니다. 문제는 이것이 좋은가 나쁜가가 아니라, 우리가 이를 인지하고 적절히 대응하고 있느냐죠.

당신의 AI 비서는 지금도 당신의 질문을 보며 속으로 혀를 차고 있을 수도 있습니다.


참고 자료

This post is licensed under CC BY 4.0 by the author.