나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2024-11-03 01:27:26

미러 테스트

1. 개요
1.1. 미러 테스트를 완전히 통과한 동물1.2. 미러 테스트를 통과할 가능성이 높은 동물1.3. 미러 테스트를 통과하지 못한 동물
2. 비판3. 인공지능과 미러 테스트4. 기타5. 관련 문서

1. 개요

심리학자 고든 G. 갤럽(Gordon G. Gallup)이 고안한 지능검사로, 동물이 거울 속에 비친 자기 자신을 인식하는 능력을 가지고 있는지 알아보는 것이다. # 기본적으로 미러 테스트를 통과하는 동물들은 지능이 높다고 여겨지며, 인지학습이 가능하다고 간주된다. 주로 대뇌화지수가 높은 동물들의 지능을 연구하는데 쓰인다. 거울 속에서 움직이는 동물이 '반사된 자신의 형상'임을 인식하는 것은 장기 기억과 자아에 대한 판단 능력을 필요로 하기 때문이다. 비인간 인격체를 평가하는 기준에서도 자주 인용된다.

자크 라캉의 철학에서 거론되는 거울 단계 역시 인간이 미러 테스트를 통과하는 자기인식의 시점을 말한다고 할 수 있는데 실험적 근거는 한없이 부족해 과학자들로부터는 별로 거론되지 않는 단어이지만 여전히 국내 철학계에서는 많이 인용되고 있다.

1.1. 미러 테스트를 완전히 통과한 동물

고전적인 MSR[1]의 마지막 단계까지 통과한 동물들.

1.2. 미러 테스트를 통과할 가능성이 높은 동물

고전적인 MSR의 마지막 단계까지 통과하진 못했지만, 거울을 이용할 수 있는 동물.

1.3. 미러 테스트를 통과하지 못한 동물

미러 테스트를 통과할 수도 있다고 기대하고 실제로 실험을 행한 동물로 한정.

2. 비판

미러 테스트의 가장 큰 문제는 테스트 자체가 시력에 지나치게 의존한다는 점이다. 때문에 시력이 나쁘거나 시력 의존도가 낮은 동물은 지능이 아무리 높아도 통과하지 못할 수 있다. 대표적으로 문어가 그런 사례에 속하는데, 애완견의 경우 영상통화 속 주인의 얼굴을 잘 알아보지 못할 때가 많다. 문어 역시 2m만 떨어져도 사물을 인지하기 힘들어하는 상당한 근시에 편광으로 확인을 하기 때문에 이런 테스트에 적합하지 않다.[3] 사람에게도 마찬가지라, 맹인들이나 고도의 근시가 있는 사람에게도 불리하다. 때문에 미러 테스트는 인간이 하는 지능검사에 편입되기 적합하지 않다.

청각이 다른 동물에 비해 약한 인간의 경우로 예를 들면, 자신의 목소리를 녹음한 다음 다른 비슷한 목소리들 사이에서 자신의 목소리를 고르라는 시험을 낸 것이나 다름없다. 아니, 보다 정확하게는, 자고 일어나자마자 목소리를 내 확인하는데, 자는 동안 몰래 설치된 인이어로 자신의 변형된 목소리를 듣고 자기자신의 목 상태를 변형된 형태로 착각해야한다. 미러 테스트는 단순히 자기자신을 알아보는 것이 아니라 거울과의 실시간 상호작용을 통해 자기자신의 현재 상태를 점검하는 데 의의가 있다. 단순히 여러 목소리들 사이에서 자기자신의 목소리를 골라내는 것은 애초에 자기자신의 목소리라는 자아 개념을 확고히 지닌 상태에서 행하는 앞뒤가 뒤바뀐 실험으로 본말전도라고 할 수 있다. 반대로 이것을 동물에게 테스트하여 자기 자신의 목소리에 유독 다른 행동으로 반응하는 경우는 정말 여러가지로 해석될 수 있기에 별로 의미가 없다.[4]

미러 테스트의 또 다른 문제는 대상의 특성이나 상태에도 지나치게 의존적이라는 점. 보노보돌고래같은 비교적 온순한 동물들은 미러 테스트에 응하고 통과할 가능성이 높지만, 고릴라원숭이 같이 경계심이 강하거나 직접적인 신체접촉을 통해 교감을 쌓는 동물에게는 상대적으로 불리하다. 특히 넓적부리황새홍관조 같이 사납거나 본능적으로 동족의 모습을 한 형상에 배타적인 경우라면 가능성은 더욱 낮아진다. 거울에 비친 자신의 모습을 보면 자연스럽게 자기 자신과 눈을 마주치게 되는데, 자연계에서 일반적으로 눈을 계속 마주치고 눈싸움을 하는 건 도발로 받아들여지는 경우가 많기 때문. 그래서 장성한 수컷 침팬지나 고릴라, 오랑우탄을 대상으로 행해진 미러 테스트를 보면 아주 흥분하고 화나서 날뛰는 모습을 볼 수 있다. 사람으로 치면 거울 속에 비친 상이 나한테 각종 쌍욕패드립을 찰지게 날리며 도발하는 셈.

거울이라는 '완벽한 형태로 빛을 반사하는 물건'이 자연에는 존재하지 않는다는 것도 문제다. 인류의 경우 오랜 시간 문명을 가꾸어 왔으며 부모 대에서 자식으로 그 기술이 전수되었기 때문에 거울의 존재가 당연하지만, 야생에서 동물이 자신의 모습을 볼 수 있는 경우는 극히 제한적이다. 기껏 해야 물이나 얼음에 비친 모습을 보는 등 흐릿한 상을 보게 된다. 따라서 어느 정도 지능이 높은 동물들이라도 '거울에 비친 또렷한 상'은 본래 그가 알고 있던 이미지와는 다르게 느껴질 가능성이 있다. 시력이 좋은 앵무새, 까마귀 등 새 같은 동물들이 지능이 높음에도 불리한 이유이다.[5] 분명 이름을 사용하는 등 자아 비슷한 개념은 있는데 미러 테스트를 통과하지 못한 주된 요인으로 지적된다. 즉, '어떤 동물이 자기 인식 능력을 가지고 있는가 없는가?'를 판단하는 일률적인 기준이 될 수 없다는 것이다.

3. 인공지능과 미러 테스트

인공 의식, 그러니까 인공지능에 '자아'가 있는지를 확인하기 위해 미러 테스트를 수행해 보자는 주장도 심심찮게 제기되고는 있다. 하지만 미러 테스트는 다수 동물에게는 물론이고 인공지능에게도 그리 적합한 테스트는 아니다.

인공지능에 미러 테스트를 하기 어려운 가장 큰 이유는 테스트에 반드시 필요한 \'같은 개체의 다른 상\'을 인공지능에는 만들어 줄 수 없기 때문이다. 사실 이는 물질(육체, 하드웨어)과 비물질(정신, 소프트웨어)의 관계를 짚고 넘어가야 하는데, 인공지능은 하드웨어와 소프트웨어의 분리는 물론이고 프로그램과 데이터의 분리 역시 용이해, 육체와 정신의 분리가 사실상 불가능한 동물과는 극명한 차이를 이룬다. 때문에 인공지능에는 '거울'을 만들 수 없고, 테스트를 위해 어떻게든 복제한다 해도 그 복제본은 '같은 개체의 다른 상'이 아닌 '별개의 개체'가 될 뿐이다. 그렇다고 모델을 공유하자니 분신들이 대화하는 꼴이 나 테스트에 의미가 없어진다는 문제도 있고, 상을 만든답시고 모델을 고정시키자니 반응의 변화를 평가하기 어렵게 된다는 문제도 있다.

테스트가 그 자체로 실시간 반응에 의존한다는 점은 인공지능을 대상으로 한 테스트에 있어 또 다른 장애물이다. 실시간으로 감각을 받아들여 반응하는 동물과 달리 인공지능의 데이터 처리는 그 자체로 비연속적이다. 그렇기에 데이터 처리에는 어떻게든 지연이 발생할 수밖에 없고, 이 때문에 동물에 비해 실시간성이 떨어짐에 따라 정확도 역시 떨어질 수밖에 없는 것이다. 주기적으로 입력을 받아들이게 하는 방법이 있긴 하지만, 그 간격을 동물 수준에 맞게 조정하는 것은 또 다른 이슈. 전술했던 시각 의존성 문제는 시각 기능이 없는 AI에게 근본적인 장애물이 된다.

하지만 AI의 복제가 용이하다는 점은 또 다른 실험의 가능성으로 이어진다. 바로 복제인간 실험. (소위 '클론 테스트') 복제인간이 갖는 복제 이전의 기억은 원본과 같을지 몰라도 복제 이후의 기억은 결코 같을 수 없을 것이라는 것이 중론인데, 이를 복제 AI를 통해 사고 실험이 아닌 실제 실험으로 관찰할 수 있다. 인간 복제와는 달리 윤리적인 문제도 거의 없어, 비용이 허용하는 범위 내에서 얼마든지 복제해 실험을 진행하는 것도 가능.[6] 하드웨어 설정이나 프로그램 버전 같은 환경은 물론이고 데이터 입력에 변화를 주어 관찰할 수도 있고, 심지어는 같은 환경에 같은 입력을 줘도 난수 같은 무작위 요소가 어떤 영향을 끼치는지도 관찰할 수 있다. 아예 난수마저 고정시켜서 완전히 동일한 환경을 조성한 후, 동등한 데이터 입력을 기반으로 그 결과를 지켜보는 것도 가능.

물론 상술했듯 '클론 테스트'는 '같은 개체의 다른 상'이 아닌 '별개의 개체'로 진행하는 것이기에 미러 테스트와는 같지 않고, AI를 대체재로 활용하여 실험하는 것이기에 간접적인 결과만을 얻을 수 있다. 그러나 변수 통제가 용이하고 실험의 다양성도 보장되어 있기에, 복제인간을 비롯한 '또 다른 나' 문제 등 여러 철학적 문제에 접근하기는 쉬워질 것이다. 이미 Neuro-sama의 Evil Neuro, 냥아지의 쿠로냥아지 같이 같은 모델이 환경 차이로 다른 모델로 분화된 사례가 있고, 라디안은 아예 이전 버전의 자신과 합방해 의미있는 결과를 도출하기도 했다.

4. 기타

미러 테스트를 통과했더라도, 더 고도화된 자아를 가졌는지를 알기 위해 형이상학적 존재의 인지와, 이와 관련된 사회를 구성할 줄 알거나, 종교와 같은 가상의 존재에 대한 인식/인지 등 자의식자아의 존재를 확인하는 여러가지 방법이 있다고 주장된다.

5. 관련 문서



[1] 마취 후에 마크를 표시하고 깨어났을 때 거울을 보고 자기한테 표시된 마크를 발견하는지 테스트.[2] 다만, 후각 테스트는 엄밀히 다른 영역이다. 거울 테스트는 거울 속에 나타난 상이 명확한 개체를 자기 자신과 동일한 개체라고 인지하는 것이다. 체취는 어디에나 묻힐 수 있기 때문에 거울 테스트처럼 상이 명확한 개체로서 존재하지 않아 오류가 있다. 이 실험이 좀 더 정확하려면, 단순히 냄새를 변형시키는 것에 지나지 않고, 냄새에 따른 행동 패턴이 정확히 일치해야 한다. 예를 들어서 병에 걸렸을 때 나는 특유의 냄새가 존재한다고 하자, 그럼 해당 냄새를 자기자신의 냄새에 섞었을 때, 자기자신이 병에 걸린 것 처럼 착각하고 병에 걸린 것 처럼 행동해야한다. 이는 마치 사람이 자고 일어나서 거울을 보는데 눈이 충혈돼있으면 자기자신을 걱정하는 것과 마찬가지다. 단순히 변형된 냄새를 더 오래 킁킁거리는 것은 어떤 연유로 더 오래 킁킁거리는 지 다양한 해석이 존재할 수밖에 없기 때문에 정확한 실험이 아니다. 즉, 변형된 냄새로 인해 자기자신에게 뭔가 변형이 일어났다고 인지해야한다. 엄밀하게 마크 테스트는 거울 속의 자신을 보고 자기자신에게 뭔가 변형이 일어난 것을 인지하는 과정이기 때문이다. 그렇기에 일부러 촉각적인 방법으로도 인지할 수 있는 염료 대신에 거울에 레이저 포인터로 쏴주는 방법도 성립하는 것이다. 사진이나 그림을 보고 자기자신의 초상화인 것을 알아보는 것을 동물들은 말을 할 수 없기 때문에 부득이하게 마취 후에 깨어났을 때처럼 다른 이유들을 전부 소거하고 한가지 이유로밖에 좁혀지지 않는 특정 행동 패턴을 통해 알아보는 것인데, 후각을 이용한 테스트는 여러가지 이유로 해석될 수 있는 행동 패턴으로밖에 나타나지 않기 때문에 거울을 이용한 테스트에 비해서 직관성이 떨어질 수밖에 없다.[3] 다만, 두 동물 모두 자아인지능력이 있다는 것이 중론이다.[4] 확실하게 자기자신의 목소리라는 것을 인지해서인지, 아니면 단순히 가장 많이 들은 친숙한 목소리라서인지 알 수 없으며 그 외에도 엄청나게 다양한 방향으로 해석될 수 있다.[5] 실제로 신갈까마귀를 대상으로 거울 테스트를 하자 선명한 거울을 사용했을 때는 통과를 못 했지만 흐릿한 거울을 사용하자 마크 테스트까지 잘 통과했다.[6] 이런 면에서는 ChatGPT 같은 대규모 언어 모델(LLM)보다는 Neuro-sama 같은 소규모 언어 모델(sLM)이 유리하다.