나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2024-12-05 09:27:34

팃포탯

팃포탯전략에서 넘어옴
1. 개요2. 팃포탯의 체계
2.1. 기본 전제2.2. 전략
3. 입증
3.1. 게임 대회가 열리다3.2. 1차 대회3.3. 2차 대회
4. 더 나은 전략은 없는가?
4.1. Tit-for-2 Tats (TF2T)4.2. Downing과 변형 Downing4.3. FriedMan4.4. Joss4.5. Tester4.6. Tranquilizer4.7. 황금률(무조건 협력)4.8. 무조건 배반
5. 어째서 성공적인 전략인가?6. 개선할 점
6.1. 팃포탯을 능가한 후속 전략들
7. 관련 문서

Tit-for-Tat (TFT)

1. 개요

팃포탯(Tit-for-Tat)은 게임 이론의 반복 게임 상황(예 반복 죄수의 딜레마, Iterated Prisoner's Dilemma)에서 쓰이는 협력(협동)을 유지하는 상호작용 전략 중 하나이자 최선의 전략으로 알려져있다. 기본적으로는 협력 상태로 시작하며, 상대가 협력하면 자신도 협력하여 윈-윈 관계를 만들어내고, 상대가 배반하면 자신도 배반하여 상대가 더 이상 이득을 취하지 못하게 한다. 그리고 상대가 다시 협력하면 흔쾌히 협력하고, 다시 배반하면 마찬가지로 보복하여 결과적으로 윈-윈 상태를 유도한다. 말하자면 협력과 배반에 대한 피드백이 확실한, 정직한 전략. 서로 다른 두 개체가 만나서 반복적 게임 상황이 발생했을 때 협력과 배반 중 어느 태도를 선택할지 결정해야 할 때 쓰이는 전략으로, 이하의 기본 전제가 성립하는 한, 지금까지 발견된 그 어떤 다른 전략도 팃포탯만큼 성공적이지 못했다. 몇몇 기본 전제들이 깨짐에 따라 팃포탯을 능가하는 것으로 짐작되는 프로그램들이 있다. 이에 대해서는 이 문서 최하단 문단에 서술되어 있다.

물론 진화의 결과로 인하여 오늘날 우리가 관찰할 수 있는 거의 모든 인문/자연 환경에서 팃포탯은 일상적으로 관찰되고 있다. 이 때문에 그 이론적 범용성이 엄청나게 넓고, 본디 경제학정치학에서 출발했지만 생물학진화론에서도 크게 관심을 기울이고 있는 방대한 주제이다. 리처드 도킨스도 팃포탯에 관심을 갖고 있는데,[1] 이기적 유전자가 어떻게 이타성을 자발적으로 나타낼 수 있는지에 대한 하나의 해답이 될 수 있기 때문이다.

이름이 다소 특이한데, 유래를 찾자면 1500년대의 옛 표현 중 보복을 의미하는 "tip for tap"이라는 것이 있었고, 여기서 따와서 "Tit-for-Tat"이라는 이름이 만들어졌다고 한다.

2. 팃포탯의 체계

2.1. 기본 전제

팃포탯의 유용성이 성립하기 위해서는 우선 다음의 기본적인 전제가 필요하다.

2.2. 전략

팃포탯의 전략은 다음과 같다.[7][8]
  1. 처음엔 협력한다.
  2. 이후에는 상대방이 바로 직전에 했던 판단(행동)을 똑같이 따라한다.[9]

이 두 개가 전부. 상당히 단순하기 그지없다. 이 전략의 핵심 요소를 정리하자면, 선제적 협력과 신뢰, 배반에 대한 즉각적 보복, 적극적인 용서, 그리고 높은 전략적 명료성이다. 팃포탯이 뭔지 모르겠으면 이 네 가지만 기억해도 된다. 이중에 어느 하나만 빠지더라도 팃포탯은 그 장점을 거의 완벽하게 상실한다.

3. 입증

팃포탯의 발견에 대해서는 정치학자 로버트 액설로드(R. Axelrod) 등이 저술한 《협력의 진화》가 있다. 특히 경제학이나 생물학 전공이라면 좋든 싫든 접하게 될 가능성이 높다.[10]

3.1. 게임 대회가 열리다

정치학자 로버트 액설로드는 미시간 대학교에서 정치학정책학을 가르치고 있었으며, 1980년대 당시 한창 인기를 끌던 죄수의 딜레마 문제에 대해 골몰하고 있었다. 그는 특히 반복적으로 죄수의 딜레마가 이어질 때, 어떤 전략을 취하는 것이 결과적으로 가장 성공적일지(=죄수로서 가장 적은 합계 형량을 받게 될지) 고민하던 참이었고, 마침내 당시로서는 꽤나 첨단 장비였던 컴퓨터를 활용하여 모의 시뮬레이션 대회를 열기로 했다.

액설로드는 곧 세계 각지의 수학자, 정치학자, 경제학자, 심리학자, 국제관계학자, 군사 전문가, 게임 이론 관련 권위자 등등에게 자신의 대회를 알리고 여기에 참여해 줄 것을 요청했다. 물론 우승자를 위한 상금도 걸었다. 참가자들이 해야 할 일은, 반복적 죄수의 딜레마 시뮬레이션에서 최고의 성과를 올릴 수 있도록 기획된 프로그램을 짜서 제출하는 것이었다.

액설로드가 만든 가상의 죄수의 딜레마는 다음과 같은 보수행렬(payoff matrix)로 구성되어 있었다.
(단위: 점) 프로그램 B
협력하기 배반하기
프로그램 A 협력하기 (3, 3) (0, 5)
배반하기 (5, 0) (1, 1)

A와 B 모두 협력을 선택했다면 양쪽은 똑같이 3점을 보수로 받게 된다. 만일 둘 중 하나가 상대방의 뒤통수를 치게 되면, 교활한 배반자는 무려 5점을 보수로 받지만 순진한 피해자는 아무런 보수도 받지 못한다. 그러나 양쪽 모두가 똑같은 셈을 한 결과로 똑같이 배반을 하게 되면, 양쪽은 똑같이 1점을 보수로 받는 데 만족해야만 한다. 전형적인 죄수의 딜레마 특유의 보수행렬이라는 것이 잘 드러나 있다.

여기서 중요한 것은 죄수의 딜레마 상황이 반복된다는 점이다. 한 번의 게임 상황을 이제부터 "시행"이라고 부른다. 대회에서 서로 다른 두 프로그램은 도합 200회의 시행을 반복적으로 거쳐야 했는데, 이제 이 시행의 세트를 이제부터 "게임"이라고 부르기로 하자. 즉, 1게임은 200시행으로 구성되어 있다.

이 대회에 참여하는 프로그램들은 상대방과의 상호작용의 결과에 대한 이력을 보존하였다. 예컨대, 한 프로그램이 어떤 상대방과 현재 168회차의 시행을 앞두고 있다면, 이 프로그램은 이전의 167회의 시행의 결과를 이력으로 갖고 있으며, 이를 참고하여 이번 시행에서 협력할지 배반할지를 결정할 수 있는 것이다.

이 대회에는 두 가지 추가 규칙이 있었는데, 한 프로그램은 그 대회에 출전한 모든 다른 프로그램들과 한 번씩 반드시 1회의 게임을 치르게 되어 있는 것에 더하여, 1) 자신과 정확히 동일한 전략을 취하는 상대방과의 게임 1회, 2) 협력과 배반 결정을 순전히 50% 대 50% 확률로 랜덤하게 판단하게 되는 난수 프로그램[11]과의 게임 1회를 포함해야 했다. 그러니까, 이 대회에 n개의 프로그램들이 출전하게 될 경우, 한 프로그램이 치러야 할 게임의 수는 n+1회가 되는 셈이다. 개별 게임의 전적에 관계없이 한 게임에서 얻은 평균 점수가 가장 높은 프로그램이 우승한다.

수학적으로 보면 한 게임에서 얻을 수 있는 점수의 총 합계는 0~1,000점이 되겠지만, 전략적인 측면이 포함되기 때문에[12] 실제로는 200~600점 정도가 된다. 따라서 최종 우승자가 얻게 될 최고의 점수는 500~600점 정도에 위치해 있으리라고 여겨졌고, 실제로도 그것이 옳다는 것이 확인되었다.

액설로드는 자신의 대회에 참가 의사를 밝힌 모든 전문가들과 프로그램 제작자들에게 지금까지의 반복적 죄수의 딜레마 관련하여 제기된 모든 정보와 이론과 자료와 전략을 완전하게 오픈했다. 이 시점에서는 팃포탯에 대해서 관련 전문가들 수준에서는 이런 게 있다 하는 정보는 존재하고 있었으니, 당연히 모든 대회 참가자들은 이미 "팃포탯이라는 킹왕짱 우승후보가 있다더라, 이러이러한 전략을 쓴다더라" 하는 정도까지 모두 알고 있는 상태로 대회에 참전하게 되는 셈이었다.[13] 결과적으로도 대회는 "강력한 우승후보인 팃포탯을 어떻게 잘 요리할 것인가"에 방점이 찍힌 모습으로 흘러가는 경향을 보였다.

그리고 하나 둘씩 참가 프로그램들이 속속 접수되기 시작했다.

3.2. 1차 대회


1차 대회에서 최종 우승자는 504.5점을 차지한 팃포탯에게 돌아갔다. 어느 정도 예상된 결과이긴 했지만, 아나톨 라포포트 교수는 우직하게 팃포탯을 신뢰했고, 나머지 13명의 전문가들은 어떻게든 조금이라도 더 우위를 차지하기 위해 팃포탯을 변형시키고 정교하게 꾸며 보려고 했던 사람들이었다. 그런데 그 개량형들이 원본에게 졌다.

사전 모의 대회에서 팃포탯의 약점 하나가 밝혀졌는데, 확률기반의 랜덤 프로그램에게 유독 관대하다는 점이었다. 즉, 쓸데없이 상대방을 너무 신뢰했고, 너무 자비를 베풀었던 대가로 너무 많은 뒤통수를 맞았다. 어쨌거나 특급 정보를 손에 넣은 경쟁자들은 어떻게든 이 부분을 파고 들어서 우세한 포인트를 차지하고자 했지만, 팃포탯은 강해도 너무 강했다.

주최자인 로버트 액설로드는 대회 이후 모든 경기 데이터들을 분석하였고, 몇 가지 결론을 도출했다. 팃포탯을 포함하여 고득점 그룹에 속해 있는 프로그램들에는 공통점이 있었던 것이다.
대충 데이터가 모아졌다 싶은 시점에서, 액설로드는 이제 2차 대회를 열 것이라고 공지하였다. 그리고 이전 참가자들과 각계의 다른 전문가들에게, 1차 대회의 분석 데이터를 아예 통째로 뿌려주었다.[14] 각계 전문가들은 팃포탯의 퍼포먼스를 적나라하게 관찰했고, 이를 통해 그것이 유독 대처하기 힘들어했던 상대방 프로그램이 무엇이고 그 특성이 무엇인지, 어떤 방식으로 고득점을 내야 할지를 연구할 수 있었다. 이번에도 대회의 핵심은 팃포탯의 약점을 파악하여, 그 부분을 보완하고 개조한 프로그램을 만들어서 점수로 눌러버리는 방법을 찾는 것이었다.

이번 대회에서는 200회차 시행, 즉 마지막 시행에서는 교활한 프로그램들이 반드시 배반하는 전략을 선택하는 것으로 나타났다. 이는 이 대회가 200회 시행이 한 게임으로 구성되어 있다는 것을 제작자들이 알고 있었기 때문에, 200회차 시행이 되면 (배반당하더라도 게임이 끝나서 보복할 수가 없으니) 무조건 배반을 하도록 프로그래밍을 했기 때문이라고 짐작되었다. 따라서 액설로드는 2차 대회에서는 정확히 시행이 그 게임의 끝이 될 가능성이 확률론에 의해 완전히 랜덤하게 결정되도록 룰을 바꾸어, 언제 게임이 끝날지 아무도 모르게 하였다.

저번의 대회가 워낙에 흔치 않은 흥미로운 것이었는지, 이번에는 수많은 과학자들과 과학 저널리스트, 교양인들까지도 관심을 보였다. 2차 대회는 이전의 대회보다 훨씬 성대하고 규모 있게 개최될 조짐을 보였다. 사람들이 너도나도 앞다투어 "이렇게라면 팃포탯보다 좋은 점수를 올릴 수 있어요!"라면서 자체 제작한 프로그램들을 제출해 왔던 것이다.

3.3. 2차 대회


434.73점으로 가장 높은 점수를 획득한 팃포탯이 이번에도 마지막에 웃었다. 62개나 되는 수많은 정교한 전략들이 도전했지만, 그 어떤 프로그램도 팃포탯의 점수를 압도하지 못했다. 재미있게도, 참가자들의 교육년수와 같은 인적 사항은 프로그램의 점수와는 아무런 상관을 보이지 않았다. 프로그래밍 언어를 어느 것으로 하는지도 결과와는 전혀 무관했다. 프로그램의 전체 길이를 보아도 그것이 좋은 점수를 보장한다고 말할 수가 없었다. 게임 상황은 그런 식의 변인들에 좌우되지 않는 것으로 보였다.

무슨 생각에서였는지 라포포트는 이번에도 우직하게 팃포탯을 고스란히 밀고 나갔다. 그 어떤 약간의 수정도 가하지 않은 채로 말이다. 그러나 2차 대회에서 극명하게 밝혀진 것은, 팃포탯에 수정을 가하면 가할수록 승률은 오히려 감소하더라는 것이었다. 다시 말해, 평범한 팃포탯보다 조금 더 점수를 잘 얻고 싶어서 살짝 조작을 가하면, 조작한 바로 그 기능 때문에 도리어 발목이 잡히고 고득점에 실패하는 상황이었다.

1차 대회의 결과를 통해, 참가자들은 분명 "선량함의 위력"에 대해서 굉장히 주의를 기울인 것으로 보였다. 재미있는 것은, 이들 중 상당수는 "그러니까 선량한 프로그램을 만들자"가 아니라, "그러니까 선량한 프로그램들을 적절히 등쳐먹자"는 결론을 도출했다는 것이었다. 즉, 상대방이 보복할 가능성은 일단 염두에 두되, 실제로 응징하지는 않는 선에서 상대방의 관대함을 최대한 이용해야겠다는 심보였다. 물론 그런 프로그램들은 일관되게 고득점에 실패했는데, 여기서 중요한 건 그런 프로그램들 자체가 아니었다. 기존에 고득점을 했던 프로그램들은, 이제는 그런 야비한 프로그램들을 얼마나 빠르게 식별하고 얼마나 현명하게 대처하는지에 따라 득점이 좌우되었다.

문제는 팃포탯이 선량하기도 하지만 선제배반에는 가차없는 프로그램이라는 점을 그들이 잊었다는 것이었다. 팃포탯은 비선공이므로 항상 먼저 뒤통수를 맞지만, 자신이 한 번씩 맞을 때마다 꼭꼭 잊지 않고 상대방의 뒤통수를 야무지게 후려갈기는 프로그램이었다. 그렇기에 당하는 상대방 입장에서는 아무리 통박을 굴려 봐야 결국 팃포탯이 요구하는 대로 따라가는 수밖에는 답이 없었다. 실제로 최초 10회의 시행에서 이 모든 조교의 작업이 완료되는 경우가 많았고, 이후의 백수십 회의 시행은 둘 중 하나였다. 팃포탯이 하자는 대로 충실하게 상호협력을 하거나, 아니면 끝까지 대들면서 상호공멸의 길을 걷거나. 팃포탯을 이기고 싶으면 팃포탯에게도 고득점을 허용해야 했고, 팃포탯의 점수를 시궁창으로 만들려면 자기 점수까지 시궁창으로 만들어야 했다. 팃포탯은 대회에서 질래야 질 수가 없었던 것이다.

4. 더 나은 전략은 없는가?

이하에 소개되는 전략들은 팃포탯과 경쟁했지만 현실적으로 팃포탯보다 성공적이지 않다고 평가된 것들이다. 실제 팃포탯의 개선 가능성은 문서 최하단에 따로 설명되어 있으니 그쪽을 볼 것.

4.1. Tit-for-2 Tats (TF2T)

모든 것이 팃포탯과 동일하지만, 상대방이 먼저 "연속으로 배반"하지 않는 한 보복하지 않는다. 리처드 도킨스의 이기적 유전자의 홍영남 번역 버전에서는 팃포탯이 '당하면 갚는다'로, 팃포2탯은 '두 발에 한 번 갚기'로 번역되었다. 쉽게 말해서 좀 더 관대한 팃포탯.

상대방이 어쩌다 한 번 보복하더라도 팃포2탯은 느긋하기 때문에 "괜찮아, 한 번쯤은 그럴 수도 있지" 하고 넘긴다. 상대방이 두 번 연속으로 보복하면 그때서야 상대방의 악의성을 판정하고 보복에 나선다. 이 전략이 팃포탯보다 효과적일 수 있다는 지적이 이미 1차 대회 이전에 나온 바 있었는데, 이는 팃포탯이 어쩌다 나온 우발적인(= 악의적이지 않은) 선제배반[16]에 대해서도 너무 똑부러지게 보복하는 탓에 잠재적 협력의 기회를 너무 많이 잃어버릴 수 있기 때문이었다.

이처럼 팃포2탯은 용서의 가치를 굉장히 크게 평가하고 있으며, 1차 대회에 나왔더라면 결과는 달라질 수도 있었다는 목소리가 나왔다. 그리고 2차 대회에서 정말로 출전했지만... 막상 뚜껑을 열어 보니 생각보다 졸전했다. 왜 이런 일이 생겼는가 하여 분석해 봤더니, 일부 교활한 사기꾼 프로그램들에게 열심히 놀아나고 있었던 것이었다. 특히 이하에 설명될 "Tester" 프로그램은 팃포2탯에게는 아예 천적이었고, 팃포2탯은 마땅한 대처방법을 찾지 못했다. 팃포탯의 가장 강력한 경쟁자 중 하나였던 이 프로그램은, 교활한 프로그램에게 대처하는 방법을 몰랐다는 이유로 인하여 우승의 기회를 잃었다.

팃포2탯은 팃포탯과 만날 경우 완벽한 협력을 보여주었다. 사실 교활한 프로그램이 아니라면 팃포2탯은 매번 나름대로 점수를 챙겨가는 편이었고, 불한당 프로그램을 만나더라도 상당 부분 점수를 잃기는 하지만 아주 대놓고 당해주는 정도는 아니었다.

그러나 팃포탯보다 항상 못하다고 단언하기는 어려운 것이, 게임 내부에 10% 미만의 확률로 자신이 내려고 한 것과 반대되는 것을 내게 하는 '실수'를 적용한 게임에서 돌릴 경우, 팃포2탯은 '악의적이지 않은 배반을 용서하여 더욱 많은 협력을 이끌어낸다'고 하는 기본이념을 최대한 발휘해 팃포탯을 압살할 수 있다. 그렇다고 해도 태생적으로 테스터가 천적이란 건 변함이 없다.

4.2. Downing과 변형 Downing

"다우닝"이라고 불리는 전략은 1차 대회에서 한 번 나왔었다가 크게 죽을 쑤었던 방식인데, 2차 대회에서는 "이거 살짝 고치면 의외로 쓸 만하겠는데?"라고 생각한 연구자들에 의해 개량되어 다시 출전하였다.

기본적으로 다우닝은 상대방의 협력 가능성과 배반 가능성을 확률로 계산하며, 매번 상호작용 이력이 업데이트될 때마다 그 값을 보정한다. 어찌 보면 과거 상호작용 이력을 가장 적극적으로 활용하는 프로그램. 최초에는 협력 가능성 50%, 배반 가능성 50%로 시작하고, 상대방이 하는 짓을 보아서 협력이 더 높다 싶으면 협력하고, 배반이 더 높다 싶으면 배반을 선택하도록 하는 프로그램이다. 그러나...

일견 무척 합리적이고 통계적으로 그럴듯해 보이지만, 기존의 다우닝은 한 가지 치명적인 문제가 있었다. 양쪽 가능성이 동률일 때에는 신중한 상황판단을 위해 배반을 선택한다는 것. 그러니까 첫 판부터 다짜고짜 선제배반을 한다는 소리다. 이 전략은 팃포탯 및 유사 프로그램들과 만났을 때 다우닝의 점수를 나락으로 떨어뜨린 요인이었다.[17] 당연히 연구자들은 "그럼 동률일 때에는 협력하도록 하면 될 거 아냐?"라고 생각했고, 2차 대회에서 변형 다우닝을 내놓았다.

그러나 변형 다우닝은 2차 대회에서도 빛을 보지 못했다. 변형 다우닝의 천적은 바로 아래에 설명될 "Tranquilizer"였다. 변형 다우닝은 이 교활한 사기꾼 계열의 프로그램에게 지독하게 착취당하고 농락당했다. 물론 기존의 다우닝과 달리, 팃포탯 계열의 선량한 프로그램과 만나면 완벽한 협력을 하는 데 성공했지만, 불행히도 (팃포2탯과 마찬가지로) 까다로운 사기꾼을 만났을 때 어떻게 대처해야 할지를 몰랐기 때문에 생각보다 저조한 성적을 거둘 수밖에 없었다.

4.3. FriedMan

맨 위의 영상에서는 Grudger라고 표기되었다.

처음부터 계속 협력한다. 단, 상대가 배반을 하는 순간부터는 상대가 무엇을 하든지는 관계없이 게임이 끝날 때까지 계속 배반한다. 즉 팃포탯의 "관대함"을 완전히 포기한 프로그램이다.

배신자에게는 철저한 복수만을 한다는 얘긴데, 이 프로그램은 상술했듯이 1차 대회의 모든 선량한 프로그램 중에서 최하위가 되었다.

다만 이 전략은 올디 전략만은 아니지만 안정성 있는 전략이긴 하다. 한번 배신에는 무조건 배신으로 화답하기에 팃포탯과 마찬가지로 동점이거나[18] 아무리 많이 잃어도 5점만 잃기[19] 때문 심지어 잘하면 5점 이상 앞설 수도[20] 있다. 오히려 올디 전략에 비해서는 협조를 이끌어 낼 수 있고 팃포탯에 비해서는 배신당할 확률을 확 낮출 수 있다는 점에서 양쪽의 약점을 모두 보완한 장점이 있다. 달리 말하면 선량한 전략과는 선제배반을 안 당하니 끝까지 협조하고 악랄한 전략은 철저히 응징해 손해를 극히 최소화한다. 그러나 팃포탯의 '관대함'이 없기에 팃포탯과는 달리 테스터, 트랜퀼라이저 같은 기회주의자들을 조련해서 서로 고득점을 얻는 기회는 다 놓쳤다.

4.4. Joss

모든 것이 팃포탯과 동일하지만, 10%의 랜덤한 확률로 선제배반의 가능성을 갖는다. 쉽게 말해서 욕심 부리는 팃포탯.

프로그램 "요스"는 팃포탯을 베이스로 만들어진 다양한 프로그램들 중에서도 그 선량함을 일부 포기했다는 점에서 특징적이다. 물론 선량함을 포기했다는 것 자체는 직관적으로 그 이유를 이해하기 쉽지만[21] 1차 대회에서 얻은 교훈에 비추어 보면...

그러나 욕심쟁이 요스가 승리자가 되는 일은 없었다. 고득점의 필수조건은, 어쨌든 누군가와는 완벽한 협력이 달성될 수 있는 조건이 있어야 한다는 것이었다. 팃포탯 계열의 프로그램들은 기본적으로 선량함을 지키기 때문에 1등까지는 아니더라도 무리없이 고득점을 할 수 있다. 그런데 요스처럼 슬쩍슬쩍 배반을 한다면? 팃포탯에게 배반이 적발되는 순간 얄짤없이 보복 확정이다. 그리고 이것은 10% 확률로 발동되기 때문에 장기간의 시행 중에서 여러 차례 발생할 수밖에 없고, 팃포탯이 아니라 다른 무엇이더라도 좋은 대접을 받을 만한 전략은 아니었다.

더욱이 큰 문제는, 지는 비신사적인 주제에, 꼴에 팃포탯 베이스라고 상대방의 배반을 발견하면 즉각적인 보복을 한다는 점이었다. 이게 왜 문제가 되냐 하면, 요스는 절대로 팃포탯과 만나면 안 되었다. 처음 10회 정도를 무리없이 협력하던 요스는, 얼마 못 가서 슬쩍 배반을 걸게 되고, 팃포탯은 매의 눈으로 이걸 적발해서 곧바로 보복한다. 팃포탯이 보복한 것을 확인한 요스는, "이놈 봐라? 네가 날 배반했다면, 나도 널 배반하겠다!" 같은 참으로 어처구니없는 패턴을 보이게 되고, 요스의 보복(?)을 확인한 팃포탯은 이를 다시 보복으로 응수하게 된다는 것이다. 요스-팃포탯-요스-팃포탯 순으로 번갈아 보복하는 수순이 계속되다가 이런 상황에서 요스가 10% 확률로 한 번 더 선제배반하게 되면, 결국 게임이 끝날 때까지 둘 다 배반만 하면서 끝나게 된다. 그러니까, 처음 10여 회 정도만 협력이 발생하고, 나머지는 계속해서 상호배반의 공멸상황으로 이어지게 된다. 이로 인해 요스는 팃포탯을 상대로 1차 대회에서 230점밖에 못 얻게 되었다.

4.5. Tester

사악한 폭력배 계열의 프로그램으로, 강자에게 약하고 약자에게 강한 잔혹한 전략을 구사한다. 만나는 상대방마다 적당히 몇 번 배반도 해 보고 보복하는 패턴도 관찰해 보면서, 만만해 보인다 싶으면 가혹하게 착취하고, 만만치 않다 싶으면 깨끗이 단념하고 손을 내미는 프로그램. 상대방이 자신에게 이용당할 만한지 테스트해 본다는 의미에서 이름이 이렇게 붙었다. 현실의 기회주의자들과 비슷한 타입이다.

일단 선제배반을 채택하는 교활한 프로그램이지만, 다른 교활한 프로그램들과는 달리, 자신의 그 악의성이 자신에게 덫으로 작용하기 이전에 상황판단을 해서 전폭적인 협력으로 노선을 변경할 수 있다. 즉, 자신이 뒷감당을 하기 힘들 정도로 보복이 강하게 들어올 경우, 그 상대방을 인정해 주고 협력 노선으로 갈아타는 전략이다. 실제로 상술되었듯이 테스터는 팃포2탯을 철저하게 유린했다. 팃포2탯은 이런 프로그램을 상대하기에는 너무 느긋했고, 테스터는 팃포2탯이 연속배반에만 반응한다는 것을 눈치채자마자 이 점을 교묘히 악용해 가면서 지능적으로 괴롭혔다.[22]

그렇다면 팃포탯과 만났을 때는 어떻게 되었을까? 테스터가 슬쩍슬쩍 간을 볼 때마다 팃포탯은 타협도 자비도 없는 강경한 보복으로 맞섰고, 이후 곧바로 화해의 손길을 내밀었다. 테스터에게 팃포탯이 요구하는 것은 굉장히 명확했고, 원체 상황판단 능력이 좋은 테스터는 얼마 안 가서 팃포탯을 상대로 어떻게 대응하는 게 가장 최적의 방법인지 바로 간파했다. 바로 팃포탯과 무한히 협력하는 것.

테스터는 또 다른 의미에서 의외로 성적이 저조했는데, 팃포2탯처럼 지나치게 낙관주의적이고 느긋한 프로그램들은 교묘히 착취할 수 있었지만, 같은 사기꾼끼리 만나거나 자기 의사결정 전략을 노출시키기를 꺼리는 프로그램, 그리고 완전한 확률적 난수 프로그램에게는 취약했다. 그래서 여기서 점수를 죄다 까먹는 통에, 팃포2탯을 통해 착취한 점수와 팃포탯 계열과 협력해 얻은 점수가 상쇄됨으로써 결과적으로 팃포탯을 넘어서는 데 실패했다.

4.6. Tranquilizer

교활한 사기꾼 계열의 프로그램으로, 처음에는 순진한 척하고 공고한 협력관계를 쌓다가, 시행이 충분히 누적된 이후부터는 확률이 25% 이상으로 높아지지 않는 선에서 가끔씩 선제배반을 한다. 배반 이후에 보복이 들어오면 겸허하게(?) 그것을 감내하고 얼마간 자숙하는 모습을 보이다가 다시 뒤통수를 친다. 그러나 한 번의 배반을 위해 여러 번의 협력을 시도하기 때문에, 전체적으로 보면 협력의 비중이 매우 커서 상당히 괜찮은 전략일 것이라고 여겨졌다.

딱 봐도 다우닝 계열을 노리고 만들었다. 트랜퀼라이저에게 제대로 걸린 변형 다우닝은 그 교묘한 속임수에 전혀 대처하지 못하고 전폭적인 협력만을 유지하면서 빨아먹힐 수밖에 없었다. 배반 가능성이 50% 이상으로 올라가야 뭘 어떻게 해 보든지 하는데, 아무리 높아도 25% 이하의 배반 가능성을 유지하는 트랜퀼라이저에게는 손쓸 도리가 없었던 것이다. 이미 초반에 거쳐 온 100여 회 이상의 협력 이력이 쌓여있는 이상, 트랜퀼라이저는 변형 다우닝이 보기엔 선량한 프로그램이었다.

천성이 사기꾼인지라 팃포탯 계열과 만났을 때에는 완벽한 협력을 이루지는 못했지만, 나름대로 중박은 쳤다. 물론 트랜퀼라이저에게 뒤통수를 맞은 팃포탯은 꼬박꼬박 정의의 심판을 내렸고, 적어도 트랜퀼라이저는 팃포탯과 다시 화해하는 척이라도 함으로써 상호공멸의 나락까지 떨어지지는 않았다. 그러나 그 어떤 다른 프로그램과도 완벽한 협력을 이루어내는 데에는 실패했기 때문에, 고득점을 얻는 데에는 실패했다. 선량한 전략은 이처럼 결정적이었던 것이다. 적어도 동류끼리 만난다면 완벽한 협력을 보장받을 수 있으므로.

4.7. 황금률(무조건 협력)

쉽게 말해서 상대방이 어떻게 나오든 모든 시행에서 무조건적으로 협력을 선택하는 단순한 전략. 《협력의 진화》 서적에서는 이를 두고 "올시 전략"(All-C strategy)으로 소개하였다.

하지만 내가 원하는 대로(협력) 상대방에게 베푸는(협력 전략) 방식은 명백하게 실패했다. 물론 교활한 사기꾼들에게는 적절히 이용당하면서 상대방의 점수를 채워주는 호구였지만, 그래도 자기 자신도 어느 정도 괜찮은 점수를 챙길 수는 있었다. 문제는 하찮은 불한당 같은 프로그램들이었다. 황금률 전략은 이런 프로그램들과 마주하게 되면 철저한 빵셔틀... 아니, 점수 셔틀로 봉사할 수밖에 없었다. 게다가 이 경우는 아예 대놓고 착취를 하기 때문에 점수가 거의 200점대 수준으로 추락하는 지경에까지 이르게 될 위험이 있었다. 이 전략을 채택한 유기체에게 인간 사회나 자연 환경은 그야말로 가혹한 정글이 될 것이 분명했다. 애초에 황금률 자체가 처세술보다는 이상적 지향점에 더 가까운지라...

팃포탯과 황금률이 만나면 물론 완벽한 협력이 달성되었다. 한편 황금률이 꼼짝하지 못하던 일진 같은 프로그램들의 경우, 팃포탯은 배반이 나타날 때마다 매섭게 보복하기 때문에 그들이 함부로 착취할 수가 없었다.

이 전략은 엑설로드의 양차 대회에는 출전하지 않았으며, 다른 관련 연구들에 의해 별개로 검증이 이루어진 케이스이다.

4.8. 무조건 배반

쉽게 말해서 상대방이 어떻게 나오든 모든 시행에서 무조건적으로 선제배반을 선택하는 단순한 전략. 《협력의 진화》 서적에서는 이를 두고 "올디 전략"(All-D strategy)으로 소개하였다.

자신이 손해보는 상황을 원천봉쇄하는 데에 가장 효과적인 전략으로, 내가 세상을 저버릴지언정 세상이 나를 저버리지는 못하게 하겠다는 문구를 그대로 실천한다. 세상 그 누구도 믿을 수 없고 불신과 음모와 배신이 판을 치는 환경에서라면, 무조건 배반 전략을 취하는 것이 그나마 생존을 위한 최선의 선택이 되기도 한다. 실제로 인간 사회에서도 무정부 상태내전, 폭동으로 인한 치안 공백, 혹은 소위 "강호의 도의가 땅에 떨어진 시절"일 경우에 자주 관찰된다.

놀랍게도 이 전략은 진화적으로 볼 때 극도로 안정되어 있다. 다시 말해서, 일단 이 전략을 취하는 개체들이 그 집단이나 사회의 주류가 되고 나면, 다른 대안적 전략을 표방하는 개체들이 세력을 얻어서 상황을 바꾸는 것이 지극히 어렵다. 이쯤 되면 그 집단이나 사회는 가히 "난세"라고 불러도 무방할 지경. 흔히 포스트 아포칼립스 상황을 다루는 많은 대중매체에서 등장인물들이 "지금은 누구도 믿을 수 없어, 믿을 수 있는 건 오직 자신뿐이야"라고 대사를 읊는 장면이 나오는데, 이들이 취하는 전략이 바로 이거다. 상황과 여건만 받쳐준다면 무조건 배반 전략은 어디서든 나타난다.

그렇다면 팃포탯과 이 무조건 배반 전략이 만난다면 어떻게 될까? 배반 전략이 무조건 승리한다. 기본적으로 팃포탯은 win-win 아니면 lose-lose 외에는 어떠한 상황도 허용하지 않으며, 상황을 자신이 원하는 대로 이끌고 갈 수 있는 힘이 있다. 무조건 배반 전략은 필연적으로 팃포탯의 보복을 초래하지만, 팃포탯의 처벌적인 의도와는 달리 무조건 배반 전략은 "1) 배반한다. 2) 협력하고 싶으면, 1번을 보라."의 단순한 메커니즘을 따르기 때문에 결과적으로 lose-lose 상황으로 치닫게 된다. 즉 단 둘밖에 남게 되지 않을 시, 무조건 팃포탯보다 높은 점수를 지니게 되는 것이다.[23] '배반'이란 단발적인 죄수의 딜레마에서는 최선의 우월전략이기도 한데, 말하자면 로우 리스크-로우 리턴 전략으로 불확실한 하이 리턴(나와 상대방의 협력)을 일절 포기하고 절대로 하이 리스크(나는 협력하고 상대방은 배반하는 상황)를 감수하지 않겠다는 신념을 올곧게 밀고 나가기에 개체적으로는 확실히 안정적인 전략.

그렇다면 어째서 이 전략이 우리 사회에 팽배해 있지 않은가... 할 수 있겠으나, 무조건 배반 전략보다 더 안정된 전략이 유일하게 하나 존재하고 있으니, 그 또한 바로 팃포탯이다. 셀 수 없는 시도의 생존 전략 중 딱 하나의 팃포탯을 제외한 모든 전략이 이 무조건적인 배반 전략에 밀려서 사멸해 버린다. 거꾸로 말하면, 기본적으로 이기적일 수밖에 없는 유전자의 미시세계로부터 거시세계로 올라올 때 나타나는 이타성과 협력의 근원이 바로 이것이다. 실제로 난세를 배경으로 하는 무협지나 포스트 아포칼립스물에서 주인공이 표방하는 가치이기도 하다. 팃포탯 전략이 갖는 진화적 안정성에 대해서는 이하에서 다시 설명할 것이다.

이 전략은 엑설로드의 양차 대회에는 출전하지 않았으며, 다른 관련 연구들에 의해 별개로 검증이 이루어진 케이스이다.

5. 어째서 성공적인 전략인가?

팃포탯의 메커니즘 자체가 최초의 접근에서 이득을 내는 방법 이외에는 자신을 추월하는 고득점 전략을 사실상 허용하지 않는다. 엑설로드의 대회에서 팃포탯은 자신이 왜 우승후보 자격이 있는 전략인지를 극명하게 드러내 보였다. 이를 정리하면 다음과 같다.

첫째, 팃포탯을 상대로 고득점을 내기 위해서는, 반드시 팃포탯에게도 고득점을 허용해야 했다. 이게 마음에 들지 않는다면, 자신이 고득점을 얻을 기회를 포기해야만 했다. 놀랍게도, 완벽한 협력이 아닌 모든 게임에서 팃포탯은 단 한 번도 상대방보다 우월한 점수를 낸 적이 없었고, 항상 상대방과 점수가 같거나[24] 5점 낮은[25] 경향을 보였다. 팃포탯은 상대방을 짓밟고 올라가려는 시도를 하지 않았다. 대신에, 자신과 상대방이 함께 손잡고 똑같이 고득점을 얻을 수 있도록 했다. 심지어 조금 더 높은 점수를 얻고 싶어서 욕심을 부리지도 않았다. 이 전략이 결과적으로는 팃포탯을 진화적으로 가장 성공적인 전략으로 만들었다.

둘째, 상대방이 팃포탯을 상대로 얕은 수를 쓰다가는 즉각적으로 보복당했으며, 이러한 명확하고 분명한 메시지는 팃포탯이 희망하는 협력이라는 의미를 전달했다. 팃포탯은 협력을 상정하고, 협력을 원하는 전략이지만, 그 협력이 파괴되었을 때에는 단호하게 보복하고 응징하는 과단성을 보인다. 다소간 아이러니하지만, 이러한 가차없는 처벌이 결과적으로는 상대방에게 이 상호작용에서 궁극적으로 지향해야 할 가치가 무엇인지를 간접적으로 보여줄 수 있었던 것이다. 예컨대 저 악명 높은 사기꾼들인 테스터나 트랜퀼라이저 같은 프로그램들조차도, 팃포탯에게는 초반부터 확실하게 기선제압을 당하고 난 뒤 팃포탯과 철저한 협력 관계를 유지해야만 했다. 그리고 일단 팃포탯은 단순한 방식이었기에 '협력에는 협력으로 배신에는 배신으로'라는 마인드를 확실하게 전달했다.

셋째, 팃포탯의 단호한 보복은 무절제한 것이 아니었고, 이후에는 반드시 상대방에게 개심할 기회를 주었다. 상대방이 자신의 판단이 잘못되었음을 깨닫고 후회하고 있거나 다른 이유로 인하여 상호작용을 재건할 가망이 있을 수도 있다. 팃포탯은 이러한 가능성을 보장할 수 있는 전략이다. 보복 후 즉각 협력으로 돌아감으로써 간접적으로 전하는 화해의 메시지는, 팃포탯이 이 상호작용에서 원하는 것이 무엇인지를 직접적이고 명료하게 나타내 보인다.

이를 팃포탯이 갖고 있는 네 가지 특징에 대입하여 요약하면 다음과 같다.

5.1. 생태학진화론의 보고들

팃포탯은 진화생물학자들에게도 초유의 관심사였는데, 이는 자연세계 전체를 "실패한 전략은 도태되고 성공적인 전략만이 생존하는" 하나의 거대한 토너먼트형 게임 대회로 볼 수도 있기 때문이다. 그렇다면 진화론의 예측에 따라, 팃포탯은 실제로도 장기적으로 보아 가장 성공적이어야 하며, 팃포탯을 채택한 유기체는 주어진 환경이 변하지 않는 한 가장 번성해야 할 것이다.

연구자들은 액설로드의 대회에 출전했던 여러 전략들을 모아서 가상의 동물 종들에게 할당하고, 이 종들이 얼마나 번성할 수 있을지에 대한 생태학적 모의 시뮬레이션을 실시했다. 그러자 극명한 차이가 나타났다.
여기서 팃포탯은 상위권 전략에 속해 있었는데, 가뜩이나 성공적인 전략들 사이에서도 팃포탯은 가장 성공한 것으로 나타났다. 상위권 전략들 사이의 편차는 그렇게 크지 않았지만, 팃포탯이 진화적으로도 매우 성공적인 전략이라는 사실이 상당 부분 입증된 것이다.

5.2. 팃포탯의 안정성

존 메이너드 스미스(J. M. Smith)에 따르면, 어떤 전략은 그것이 주류가 되었을 때 다른 전략의 확산이나 주류화의 도전을 이겨낼 수 있지만, 어떤 전략은 그렇지 못하다. 팃포탯은 그것이 주류가 되었을 때 그 어떤 다른 전략의 도전도 이겨낼 수 있는 전략이다. 여기에는 무조건 배반 전략의 도전 역시 포함된다.

물론 팃포탯이 주류가 되었다고 해서 다른 전략들이 자생적으로 나타날 가능성까지 배제되지는 않는다. 그것이 자신에게 덤벼드는 전략이라면 조져놓을 뿐.[31] 사실 이런 안정성은 무조건 배반 전략 역시 가지고는 있다. 심지어 난세에는 팃포탯을 표방하는 개인이 나타날 경우 무조건 배반 전략의 안정성에 의해서 끔살당하고 만다. 이런 케이스는 실제로 워킹 데드 같은 대중매체에서 흔하게 찾아볼 수 있다.

그렇다면, 개별 출현이 아니라 군집 수준에서 자생적으로 출현하는 사례는 어떨까? 바로 이 지점이 팃포탯과 무조건 배반 전략의 차이를 가른다. 무조건 배반 전략은 군집 수준에서 나타나는 여타 전략들의 도전에 상대적으로 취약하며, 이는 어째서 무정부 상태나 난세가 그리 오래 지속되지는 않는지를 설명한다. 반면, 팃포탯은 군집 수준에서 나타나는 다른 전략들에 잘 견뎌낼 수 있다. 심지어 무조건 배반 전략을 표방하는 집단이 나타난다고 해도 그렇다. 이 집단은 최소한의 이득을 유지하기 위해 더 나은 이득을 전부 포기하기 때문에 전체 사회에서 도태될 것이며, 마침내는 사라져 버리고 만다.

실제로 팃포탯은 전체 집단 구성원의 단 5%만이 채택하더라도 마침내는 그 집단을 지배하는 전략을 바꿔놓고야 만다. 만일 게임 시행의 수가 충분히 많다면, 그보다 한참 적은 수의 구성원만이 채택하더라도 결과는 똑같다! 이는 팃포탯이 갖는 고도의 판별력 때문인데, 팃포탯은 같은 전략을 갖춘 "동료"에 대한 반응과 여타 전략을 갖춘 "이방인"에 대한 반응이 확연히 다르다. 연구자들은 팃포탯의 이러한 속성은, 적어도 팃포탯을 선택한 개체들이 상호작용할 기회가 조금이라도 주어지는 한 팃포탯의 성공을 반드시 보장한다고 생각하고 있다.

예컨대 대중매체에서 보더라도 각종 무협지에서 이야기의 첫 시작은 "강호의 도의가 땅에 떨어진 하 수상한 시절" 운운하며 무조건 배반 전략이 주류화된 사회를 다루지만, 그곳에서 개인들은 어떤 식으로든 팃포탯을 만들어내고야 만다. "구파일방" 같은 것이 괜히 나왔겠는가? 아무도 믿을 수 없는 전략적 규칙보다는, 적어도 누군가와는 무한정 협력하고 공조하면서 배반에 대해서는 철저히 보복하는 전략적 규칙이 생존에 더 도움이 된다는 것을 거의 본능적으로 (내지는 경제학적으로 합리적인 추론을 통해서) 깨달아 알기 때문이다.

그래서, 오늘날 대다수의 과학자들에게 팃포탯은 자연스럽게 창발할 수 있는 현상으로 간주되고 있다.

6. 개선할 점

물론 이처럼 완벽해 보이는(?) 팃포탯이라고 하더라도 한계점이 없는 것은 아니다.

첫째, 어찌 보면 당연하지만, 단기간에 그치거나 일회성의 게임일 경우에는 적용될 수 없다. 이 경우에는 무조건 배반 전략과 같은 다른 전략을 골라야 하며, 장기적 반복게임 상황을 상정하는 팃포탯은 아예 고려하는 것 자체가 불가능하다. 쉽게 말해 너도 한 방 나도 한 방인 상황에서 선제적 협력은 위험부담이 엄청난 수준을 넘어서 아예 자충수에 가까운 행위다. 게임 이론에서 이런 경우를 흔히 "할인계수"[32] 라고 부르는 개념으로 설명하는데, 차후 오랫동안 상호작용할 것으로 기대될수록 할인계수는 증가하고, 팃포탯은 더욱 매력적인 선택지가 된다.[33] 반대로, 차후 상호작용을 기대하지 않거나 상호작용의 가능성이 낮을 경우 협력은 붕괴한다.[34] 학자들은 많은 시행을 통해 할인계수가 충분히 커진 상태에서 팃포탯의 안정성이 크다는 것을 수학적으로 증명하였다.

둘째, 상술된 바 있듯이, 난수표와 같은 완전히 무선적인 의사결정을 내리는 전략에 대해서는 과도할 정도의 관용을 보인다. 어떻게 보면, 무전략은 최선의 전략일지도 모른다. 운만 좋으면. 물론 이 전략도 팃포탯보다 뛰어난 성공을 거두거나 안정성을 보이지는 않지만, 팃포탯이 이런 케이스에 대해 어떻게 대처할 지는 해답이 없는 것으로 보인다. 사실, 게임 이론의 근간을 이루는 "모든 유기체는 합리적으로 의사결정을 하고, 상대방도 그러할 것이라고 전제한다"의 대전제를 벗어난 사례이기 때문에, 어찌 보면 당연한 귀결일 것이다.

셋째, 일단 상호배반의 늪에 빠지고 나면 파국을 면하기 어렵다. 물론 팃포탯은 한 번 보복하고 나면 곧바로 화해의 손길을 내밀지만, 만일 상대방도 팃포탯과 유사한 의사결정 규칙을 갖고 있어서 서로가 서로를 끊임없는 배반으로 오해하고 있다면?[35][36] 실제로 액설로드의 게임 대회로부터 취합된 데이터를 검토하던 거의 대부분의 연구자들은 이 문제에 직면할 수밖에 없었다.[37] 팃포탯은 수십 회, 백수십 회의 시행 동안 내내 배반 선택을 하면서도, 그것으로부터 스스로의 힘으로 빠져나오지 못한다. 팃포탯은 저 혼자서 근성 넘치는 악독한 적과 싸우는 섀도 복싱을 하고 있는 셈이다. 만일, 상호배반의 늪에 빠진 상황을 스스로 인지하고, 낮은 확률로나마 연속적 화해 전략을 구사한다면 어떨까? 그렇게 한다면, 마찬가지로 팃포탯 기반의 전략을 취하는 상대방의 경우 상황이 바뀌었음을 인지하고 화해를 받아들일지도 모르는 일이다. 물론 액설로드의 대회에서는 이 부분을 보완한 프로그램이 출전하지 않았다.[38]

넷째로 들만한 것은 팃포탯은 악랄한 유사 팃포탯 전략과 상호공조가 이뤄지기 어렵다. 요스처럼 팃포탯과 비슷하나 적당히 욕심부리는 타입은 팃포탯과 유사히지만 언젠가는 선제배반을 하게 되어있고 그러면서도 꼴에 유사 팃포탯이라고 요스 입장에서는 자기가 하는 배신은 정상이고 남이 하는 배신은 보복의 대상이라 팃포탯이 여기에 말려들면 셋째의 상황이 되어 버리는데 팃포2탯 같은 경우는 두 번을 봐주는 만큼 요스 같은 전략에게 꽤 털리기는 하겠지만 결과적으로 더많은 상호작용을 이끌어내 팃포탯보다는 많은 점수를 따낼 것이며 상호작용 횟수가 많을수록 그 격차는 커진다. 즉 팃포탯은 자신과 비슷하지만 적당히 욕심부리는 요스 같은 타입을 상대로 손해를 안 보는 것에는 능하지만 협력하여 더 많은 이득을 취하는 능력이 부족하다.

그 외에도 팃포탯의 잠재적 개선을 찾으려는 노력은 줄곧 있어 왔다. 대표적으로, 보복의 규모를 정할 수 있다면 어떨까? 액설로드의 대회는 사실 보수행렬 자체가 이미 딱 정해져 있기에 보복의 규모를 정할 권한까지는 없었다. 그러나 인문 사회와 자연 환경에서 다양한 강도의 다양한 보복행위는 흔하게 나타난다. 대표적으로, 액설로드 본인도 소개한 바 있지만, 제1차 세계 대전 당시 참호전을 하는 동안, 상호협력을 깨는 포병대 기습 폭격이 발생하면 의례적으로 두 배의 폭탄을 퍼부어서 대응했고, 이를 통해 협력은 유지되었다. 단, 액설로드는 이러한 배가된 보복의 진화적 안정성 자체는 인정하되, 보복의 효과는 배반의 규모와 보복의 규모가 동등하거나 후자가 좀 더 작을 경우에 극대화될 것으로 생각하고 있다.[39]

팃포탯의 도덕적, 윤리적 가치를 높이려는 흐름도 있다. 물론 도덕성만을 극대화한 전략은 앞서 살펴보았던 황금률이다. 그리고 황금률의 현실적인 성공 가능성은 위에서 읽었던 바와 같다. 그러나 많이까지는 아니더라도 지금보다 조금 더 도덕적으로 바람직한 변형 팃포탯 전략이 발견된다면, 이는 기존의 팃포탯과 경쟁할 만한 가치가 있을지도 모른다. 아직까지는 이타적 행동을 직접 교육을 통해 가르치고 학습시키는 방법이 최선이다.

6.1. 팃포탯을 능가한 후속 전략들

액셀로드의 대회 이후 이루어진 한 실험에서, 팃포탯을 개량한 Gradual이라는 전략이 팃포탯을 제치고 1등을 차지했다고 한다. (원문) 이 전략은 팃포탯과 다른 점은 모두 같지만, 상대방이 배신한 시행을 기억했다가 그 시행이 진행된 수만큼 상대에게 연속으로 배반을 때린다고 한다. 상대방이 두 번째 시행에서 배신한 것이면 자신은 두 번 연속으로 배반하고, 상대방이 세 번째 시행에서 배신을 하면 세 번 연속으로 배반하고, 상대방이 백 번째 시행에서 배신을 하게 되면 자신은 상대방을 100번 연속으로 배반하는 것. 이는 이후의 리뷰에서 팃포탯의 단순명료성을 포기한 사례로 평가되었다.

Gradual은 《The Iterated Prisoner's Dilemma》(2007)에서 그 잠재적 가치가 평가되었으며, 이 책에서는 "팃포탯이 항상 최고는 아닐 수 있음을 보여준 의의는 있으나, 이것이 팃포탯을 앞선다고 말하기도 어렵다, 몇몇 경우에는 팃포탯보다 못할 수 있다"[40]는 결론을 내렸다. 한편 다른 리뷰에서도[41] 이것이 재현성이 부족해 보인다는 평가를 내린 한 연구자의 웹 페이지를 인용한 바 있으며,[42] 실제로 2004년의 한 대회에서는 4위의 비교적 저조한 성적을 기록하기도 했다.

한편 Pavlov라는 프로그램도 있다. 이는 "Simpleton" 이라는 이명을 갖고 있으며, 흔히는 "win-stay, lose-shift"[43]라는 요약으로 알려져 있다. 팃포탯과 달리, Pavlov는 상호작용에서의 노이즈가 발생하는 환경에서 특히 효과적이다. 서로간의 의향이 제대로 전달되기 힘든 노이즈 환경에서, 팃포탯은 상대방의 의도를 정확히 캐치하지 못하고 헤매는 반면, Pavlov는 노이즈로 인해 발생하는 혼란을 보다 잘 극복한다는 것. 이 전략의 요체를 쉽게 요약하면 자신의 판단과 상대방의 판단을 견주어서 똑같은 판단에는 앞 시행의 판단을 반복, 다른 판단에는 앞 시행의 판단을 교체.[44] 상기된 2007년의 단행본에 따르면, 이 전략은 생태학적 시뮬레이션에서 주어진 환경의 불확실성( = 노이즈)이 치솟을수록 효과적이었으며, 40회의 시뮬레이션 중 33회를 지배했다. 파블로프가 특이한 것은 기존의 팃포탯 기반이 아니라서 서로간의 공통점이 상당히 적다는 것.

이런 유망주들의 출현에도 불구하고 팃포탯의 명성이 쉽게 바래지는 않을 것으로 보인다. 왜냐하면 이들은 최상의 퍼포먼스를 보여주기 위하여 일정한 조건이 붙지만, 팃포탯은 잘 모르겠으면 닥치고 골라도 될 만한 안정적이고 범용적인 전략이기 때문. 즉 팃포탯이 대부분의 상황에서는 우위를 차지하지만 어떤 상황에서건 반드시 우위를 차지하는 만능의 전략이 아니라는 것을 보여주었다는 것이 중요하다고 봐야 할 것이다.

7. 관련 문서


[1] 자기가 가르치는 생물학과 학부생들에게 항상 과제물로 낸다고 한다.[2] 게임이 단 1회에 그칠 경우 1회째에 100% 배반하는 전략이 다른 모든 전략에 비해 우위에 있다.[3] 게임 이론이 성립하기 위한 가장 기본적인 가정이다.[4] 이놈이 저번에 내 뒤통수를 쳤던 그놈이었나, 아니면 내 친구인가, 그도 아니면 아예 아주 낯선 이방인인가를 변별하지 못한다면 팃포탯도 당연히 효과적일 수 없다.[5] 이 놈과 저번에 분명히 만나긴 했었는데 그때 어떻게 됐었는지 기억이 나지 않는다면 팃포탯도 당연히 효과적일 수 없다.[6] 이 놈이 취한 태도가 확실히 협력인지 아니면 배반인지가 명확하지 않으면 팃포탯도 효과적이지 못할 수 있다. 실제로, 엑설로드에 따르면 냉전 당시 핵확산 금지조약 및 핵실험 중단 합의는 일반적인 지진파와 핵실험으로 인한 지진파가 명확히 구분될 만큼 기술이 발전했을 때 비로소 타결되었다고 한다.[7] 협력의 진화 - 이기적 개인의 팃포탯 전략 로버트 액설로드 저 / 이경식 역 | 시스테마 | 2009년 4월 2일[8] The Evolution of Cooperation: Revised Edition Revised Edition by Robert Axelrod (Author), Richard Dawkins (Foreword) ISBN-13: 978-0465005642 ISBN-10: 0465005640[9] 즉, 만약 상대가 배반했다면, 다음번에 자신도 배반한다. 상대방이 한번 배반한 후에 다시 협력을 선택하면 기꺼이 상대를 용서하고 다시 협력한다. 만일 상대가 다시 배반한다면 자신도 다음번에 다시 배반한다.[10] (The Evolution of Cooperation Robert Axelrod and William D. Hamilton, Science, New Series, Vol. 211, No. 4489. (Mar. 27, 1981), pp. 1390-1396. Stable URL: http://links.jstor.org/sici?sici=0036-8075%2819810327%293%3A211%3A4489%3C1390%3ATEOC%3E2.0.CO%3B2-6 )http://www-personal.umich.edu/~axe/research/Axelrod%20and%20Hamilton%20EC%201981.pdf[11] 당연히 이 녀석은 철저히 확률에 의존하여 의사결정을 하는지라, 프로그램 입장에서는 이전 상호작용 이력 자체가 아무런 의미가 없다.[12] 첫 시행부터 마지막 200회차 시행까지 (0, 5) 보수로 호구처럼 일관되게 털리는 것은 사실상 불가능하기 때문.[13] 사실 이전에 이미 몇 차례 모의 대회를 몇 번 해 봤기 때문에, 팃포탯에 대한 정보는 이미 알려질 대로 알려진 상황이었다. 어찌 보면 "팃포탯 이길 자신 있는 사람은 신청하세요"라고 봐도 될 정도.[14] 심지어 연습게임에서는 놀라운 퍼포먼스를 보여주었지만 정작 본선에는 출전하지 않은 은둔고수 같은 프로그램들의 정보도 함께 뿌려주었다.[15] 심지어는 취미로 컴퓨터를 하는 만 10세 아동의 프로그램까지도 포함되어 있었다고 한다.[16] 앞서 소개했던, "자기 메커니즘을 공개하기 싫어서 일부러 연막을 치는" 류의 프로그램들이 이런 식의 의사결정을 많이 보였다.[17] 다우닝이 선제배반을 하면 팃포탯이 보복하고, 다우닝 입장에서는 팃포탯이 배반할 가능성이 더 높아졌으니 이걸 못돼먹은 상대방이라고 짐작하고 배반전략을 선택하고, 그러면 또 팃포탯이 보복하고, 배반 확률은 더 높아지게 보정되고...를 무한반복.[18] 상대가 한번도 배신하지 않았을 시[19] 상대가 1회 이상 배신시[20] 상대가 1회 이상 배신+그 후 2회 이상 협력시[21] 기본적으로 상대방에게 신뢰를 쌓은 다음, 가끔가끔 살짝 배반을 하면서 5점의 달콤한 보수를 얻는 것. 한 번 배반에 +2점이라는 결코 크지 않은 추가 보수가 주어지지만, 상대방이 너그럽게 봐 준다면야 큰 문제는 안 될 것이었다. 특히 다우닝이 상대방이라면...[22] 협력→배반→협력→배반→... 테스터는 1회 당 평균 4점, 팃포2탯은 1회 당 평균 1.5점을 획득한다.[23] 첫 시행에서 배반으로 얻은 점수 5점을 끝까지 지니게 된다. 배반-협력(5-0), 배반-배반 (1-1), 배반-배반 (1-1), 배반-배반 (1-1), ... 이는 다른 선량한 프로그램들과 만났을 때도 마찬가지이며, 그나마 팃포탯이기 때문에 저 정도로 끝나는 것이다. 한편으로 이것은 팃포탯의 강점을 설명해주기도 한다. '무조건 배반'이라는 대표적인 불한당 프로그램으로부터 고작 5점의 손실밖에 허용하지 않는다는 뜻이니까.[24] 상대의 마지막 선택이 협력일 경우.[25] 상대방이 처음부터 배반을 고수했거나, 마지막 선택이 배반일 경우.[26] 즉 같은 선량한 프로그램과는 상호공조가 잘 되어 안정적으로 고득점을 획득하며 이럴 경우 황금률 전략과 유사해진다. 다만 어떠한 이유에서든지 선제공격을 날리는 프로그램에게는 한방 먹을 수 밖에 없으며 특히 사기꾼, 기회주의자, 극도의 안정성을 추구하는 프로그램이 천적이나 팃포탯은 아래의 '보복성' 덕에 그 피해를 최소화할 수 있다.[27] 덕분에 선제공격형 프로그램이더라도 기회주의자 타입은 팃포탯에게 협력할 수 밖에 없고 올디 전략도 손해는 안 보지만 이득도 별로 못 본다. 다만 이것이 너무 심하면 프리드먼 전략이 되어 확률에 기반한 프로그램들과의 상호공조를 얻지 못한다.[28] 이는 다우닝 계열처럼 확률에 기반한 프로그램 등과의 상호공조가 이뤄지게 한다. 만일 무차별 보복이나 당한 횟수만큼 보복 강도를 높이면 다우닝 계열은 배신 확률을 높게 잡아 상호공조가 이뤄지지 않는다.[29] 테스터 타입이 팃포탯에 협력하게 할 수 있게 하는데 테스터는 기본적으로 상대가 호구인지 아닌지 분석하여 협력/배반을 정하는데 기껏 팃포탯이 호구가 아닌 걸 파악하더라도 패턴을 파악 못해 협력할 때와 배반할 때를 구별 못하면 상호공조의 가능성이 줄어들어 효율성이 떨어진다. 그리고 실제로도 테스터의 약점이 패턴 혹은 확률을 분석할 수 없는 프로그램이다.[30] 이 시점에서 하위권~중위권 전략들을 채택한 종들은 이미 대부분 멸종했다.[31] '자생하면 조진다'와는 조금 다르다. 팃포탯은 '자신에게 덤벼들지만 않으면' 다른 전략들을 매우 관대히 용인한다. 절대로 선제배반하지 않는 선량한 전략이 팃포탯이 주류가 된 세계에 나타난다면, 팃포탯은 그 전략과 무한히 협력하며 황금율에 가까운 이상향을 펼치게 된다. 그저 선제배반을 하며 덤벼들 경우 짓밟을 뿐.[32] 미래에 얻는 보상을 현재의 가치로 환산할 때 적용되는 계수로, 미래의 보상이 즉각적인 보상과 비슷할 수록 1에 가깝고, 동떨어질 수록 0에 가까워진다. 이 할인계수는 미래에 대한 불확실성이나 물가 상승 등으로 인한 화폐 가치 하락 등을 반영한다.[33] 이를 활용하는 방법도 있다. 서로에 대한 정보가 부족한 상태에서 상호작용하는 개인들이 서로를 신뢰하지 못할 경우, 계약이나 약속을 성사시키려면 하나의 거창한 제안(big deal)보다는 자잘한 다수의 제안을 순차적으로 제시함으로써 할인계수를 높여 신뢰를 얻을 수 있다. "네가 큼지막한 것을 내게 줘! 그러면 나도 큼지막한 것을 네게 줄게!"와 같은 제안은 신뢰가 없는 상황에서는 무의미하다.[34] 이는 어째서 10년지기 친구가 사기를 친 후 잠적하는지, 우방국의 국력이 약화되자 동맹이 끊어지는지 같은 것들을 설명할 수 있다. 쉽게 말해 먹튀의 개념.[35] 예를 들면 '최초 협력, 이후 상대방의 이전 행동 따라함'이라는 룰까지는 팃포탯과 같지만 초반에 한 번쯤 배신하면서 상대를 떠보는 유사 팃포탯 전략일 경우, 팃포탯과 만나면 이후 '난 상대방이 한 대로 따라한다'는 룰에 의해 배반의 무한루프에서 영원히 헤어나올 수 없다.[36] 도킨스의 저서에는 부정적인 팃포탯, 즉 '상대의 이전 행보를 따라한다'는 점은 같지만 최초의 선택지가 '배신'인 경우를 예시로 드는데, 이 경우 팃포탯과 부정적인 팃포탯은 서로를 무한히 미러링하게 된다.[37] 실제로 팃포탯이 lose-lose 상황을 강제당할 때의 원인이 바로 이것이었다. 이 문제는 팃포탯의 점수를 가장 크게 깎아먹는 대표적인 원인이었으며, 이것만 해결되면 그야말로 완벽에 가까운 점수를 얻을 수 있을지도 몰랐다.[38] 엄밀히 말해 팃포2탯이 여기에 가깝지만 위에서 말했듯이 다른쪽으로 농락당했다.[39] 보복의 규모가 배반의 규모보다 더 작을 경우, 위 문단에 기술된 '상호배반의 늪'에 빠지더라도 시간이 지나면 보복 규모가 점점 줄어들어서 이러한 함정에서 벗어나올 수 있다.[40] 논지를 요약한 것으로, 원문은 다음과 같다. "However, it is efficient to demonstrate that TFT is not always the best, but not efficient to prove that Gradual always outperforms TFT. Gradual receives fewer points than TFT while interacting with AllD because Gradual forgives too many defections. Therefore, if there are lots of defecting strategies like AllD in the competition, it would be possible that TFT outperforms Gradual in this case."[41] Jurišić et al., 2012.[42] 다른 연구자들의 보고에 대해서는 다음을 참고. Delahaye and Mathieu, 1996; Doebeli and Knowlton, 1998; Glomba, Filak, and Kwasnicka, 2005.[43] 이득 보는 상황에선 판단을 유지하고 손해보는 상황에선 판단을 바꾼다. 예를 들면 상호 협력과 자기 혼자 배신 상황에선 자원이 추가되므로 판단을 유지한다. 상대 혼자 배신이나 서로 배신하는 경우엔 이득이 없거나 뺏기므로 앞선 판단을 바꾼다.[44] 즉, S(p1, p2, p3, p4)는 S(1, 0, 0, 1).