零和與非零合?以牙還牙(Tit for tat)

在討論以牙還牙之前,先來討論兩個重要的觀念:

零和博弈(Zero-Sum Game)

零和博弈又稱零和遊戲,與非零和博弈相對,是博弈論的一個概念,屬非合作博弈,指參與博弈的各方,在嚴格競爭下,一方的收益必然意味著另一方的損失,博弈各方的收益和損失相加總和永遠為「零」。雙方不存在合作的可能。

也可以說:自己的幸福是建立在他人的痛苦之上的,二者的大小完全相等,因而雙方都想盡一切辦法以實現「損人利己」。零和博弈的例子有:賭博、期貨、股票等。

非零和博弈(non Zero-Sum Game)

非零和博弈是一種非合作下的博弈,博弈中各方的收益或損失的總和不是零值,它區別於零和博弈。在經濟學研究中很有用。

在這種狀況時,自己的所得並不與他人的所失的大小相等,連自己的幸福也未必建立在他人的痛苦之上,即使傷害他人也可能「損人不利己」,所以博弈雙方存在「雙贏」的可能,進而合作。

非零和博弈的例子:譬如,在戀愛中一方受傷的時候,對方並不是一定得到滿足。也有可能雙方一起能得精神的滿足。也有可能雙方一起受傷。通常,彼此精神的損益不是零和的。

囚徒困境就是非零和的一種代表,那要怎麼突破這個囚徒困境,阻止最後的「納許均衡」發生呢?

以牙還牙策略

  1. 友善:以牙還牙者開始一定採取合作態度,不會背叛對方
  2. 報復性:遭到對方背叛,以牙還牙者一定會還擊作出報復
  3. 寬恕:當對方停止背叛,以牙還牙者會原諒對方,繼續合作
  4. 不羨慕對手:以牙還牙者個人永遠不會得到最大利益,整個策略以全體的最大利益為依歸

牙還牙策略應用在囚徒困境中

假設有四個參與者:兩個用以牙還牙的策略,另外兩個無論任何時候都會背叛其他人以讓自己得到最大的好處。假定每個參與者將要面對另外三個參與者進行六次對決。如果一名參與者背叛對方而對方不背叛,前者有5分,後者得0分;如果雙方不背叛對方,雙方各得3分;如果雙方同時背叛對方,雙方各得1分。

儘管以牙還牙者從來沒有贏得過一場比賽,而背叛者從未輸過一場比賽,考慮到雙方的最大共同利益,以牙還牙仍然是最好的策略。

*以牙還牙未必是現實生活中的最佳解!* 雖然以牙還牙在某些情況下是最佳的策略,但兩名以牙還牙者有時候在博弈時仍會產生問題。假如其中一方錯誤理解形勢,就可能造成災難性結果。在以牙還牙的策略下,博弈者被迫懲罰之前背叛自己的對手(儘管他不是有意的),造成惡性循環。雙方都認為自己是無辜的,自己所作的只是為了自衛,並歸咎對手惡毒或是不跟自己合作。這種情況經常發生在現實世界的衝突,如學生間的打鬥和地區戰爭。而且實際上用以牙還牙策略只能保證和對方打成平手,很難獲得更大的勝利。

再論納許均衡

如果重複囚徒困境將被精確地重複N次,已知N是一個常數,那麼會產生另一個有趣的事實。納什均衡就是每次都背叛。這很容易用歸納法證明。你也可以在最後的回合背叛,既然你的對手將沒有機會懲罰你。因此,你們都將在最後的回合背叛。這時,你可以在倒數第二回合中背叛,既然最後一回無論你做什麼,你的對手都將背叛。依此類推。為了合作以保持請求,這時未來必須對兩個參與者來說是不確定的。一個解決方案是讓博弈總次數N變成隨機的。對未來的預期必須是無法確定的長度。

另一個單獨的案例是「永不停止」的囚徒困境。這個博弈被重複很多次,而且你的分數是一個平均數(當然是用電腦計算的)。

以牙還牙的榮光

以牙還牙當初只包含了四行BASIC語言,並且贏得了競爭錦標賽,擊敗了來自世界各地的研究團隊並且蟬連多年。

在重複囚徒困境的20周年紀念賽中,來英國南安普敦大學的一個小組介紹了一個新的策略,這個策略證明了它比以牙還牙更成功。這個策略依賴於程序之間的合作,為單一程序中獲得了最高的點數。南安普敦大學提交了60個程序參與競賽,這些程序的開頭被設計成通過一組5到10個的動作去彼此識別。一旦這些識別被作出,一個程序將總是合作,其他程序則總是背叛,保證背叛者得到最大的點數。如果程序識別出它在操作一個非南安普敦參與者,這程序將持續地背叛,企圖去最小化競爭程序的得分。結果這個策略以獲得前3位結束了競賽,也得到了大量接近底部的位置。雖然這個策略顯著地證明了比以牙還牙有效。

但是這策略是因為在此特殊的競賽中,多重通道是被允許的。在一方只能控制單一參與者的競賽中,以牙還牙確實是更好的策略。你想到了在生活中怎麼去應用「以牙還牙」了嗎?

參考:賽局理論

理論 Theory 方法論 Methodology 零和 非零和 博弈 囚徒困境 納許均衡 TitForTat