【觀後感】What Game Theory Reveals About Life, The Universe, and Everything

林彥興


三個月前影片剛出的時候就想分享,但總覺得太多要寫的一時搞定不了,就一直拖到了現在。




Veritasium 這集的主題是「重複的囚徒困境」。他從解釋單次囚徒困境與重複囚徒困境的不同開始,一步步增加情況的複雜度,展示即使不訴諸道德束縛,人人都為各自的利益理性選擇,合作仍可以是最佳選擇。

影片所展示的現代版囚徒困境情境如下:
A 與 B 兩人對局,雙方各自可以選擇「合作」或「背叛」。一人合作一人背叛時背叛者得五分,合作者得零分;雙方皆合作時兩者皆得三分;雙方皆背叛時則都得一分。而遊戲的目的,當然就是爭取最高的分數。

如果這遊戲只進行一次(也就是經典的囚徒困境),背叛將是理性的選項,於是雙方都會選擇背叛,整個系統卡在非最佳的均衡點。

對此問題的第一層拓展,是增加遊戲的次數,讓單次囚徒困境變成重複囚徒困境。此時,雙方可以根據上一回合的結果,調整自己的選擇,但這個調整的邏輯 ── 也就是「策略」── 是固定的。

令人意外的是,蒙地卡羅模擬顯示,當你有多個玩家各自使用不同策略互相進行這個遊戲時,最終取得較佳結果的玩家,往往具備友善(首輪不選擇背叛)、會報復(受背叛時會有所回應,而非一直當個濫好人)、寬恕(願意在報復後仍嘗試合作)、明確(決策邏輯簡單好懂)的特質 [1]。

相對的,惡劣(試圖利用背叛來得分)的策略,往往表現不佳。因為他們雖然在面對善良的策略佔有優勢,但與其他惡劣策略的內耗卻帶來巨大的損失。與此同時,藉由改變策略的組成,也可以發現絕對的最佳策略並不存在:策略的好壞,取決於你的對手們選擇的策略為何。

遊戲的下一步拓展,是加入適者生存:得分高的策略會留下並增值,得分低的策略則會被淘汰。如此就能測試表現優異的策略之間如何互動。結論是,最終存活並成為優勢物種的,往往是友善的策略。即使一開始的族群組成是惡劣的策略佔多數,只要有足夠的友善策略能夠互相在遊戲中累積足夠的分數,友善的族群就能成長並最終取代惡劣的族群。

而在上述例子中,一個代表性的友善策略是「以牙還牙(Tit for Tat)」[2],其邏輯是首輪合作,而之後就是不斷照抄對手上一回合的決策。這個策略的成功展示了兩件事:

第一,稍微思考會發現,以牙還牙這個策略只會輸給對手或是平手。但反直覺的是,這樣的策略在無數的對局後,卻能成為得分最高的策略之一。
第二,以牙還牙並不是個利他的策略,沒有刻意犧牲自己成全對手。其邏輯完全利己,但是仍然能達成良好的合作。

但值得注意的是,之所以能達成這樣的結果,一個重要的前提是這個版本的囚徒困境是一個「非零和遊戲」。這個遊戲不像西洋棋或是撲克牌,一方的勝利必然代表另一方的失敗。重複的囚徒困境中因為存在雙贏的可能,才能促成合作的發生。




第一次看影片的時候,看著模擬的情境一步步往複雜現實靠近,但友善的策略仍一次次勝出的時候,真的是非常令人愉悅。

這些模擬的結果當然不代表善良的人就能成功,但至少它展示了只要條件得當(而且這個條件並非完全背離現實),選擇合作並最大化整個團體的利益,是一個可以穩定達成的合理目標,而不是需要天時地利人和的奇蹟。

零和博弈這一段我也很有感。之前在〈不受歡迎的藍色起源〉和〈麻省理工數學博士:拒絕內耗!〉的觀後感中我有簡短提到過,我覺得當代世界諸多問題的底層原因之一,是人們常常在面對非零和博弈時,不假思索的使用零和遊戲的邏輯來面對問題。換言之如果你希望社會走向集體利益最大化的願景,除了不要使用惡劣的策略之外,我們還應該思考,如何把遊戲設計成非零和的樣子。

當然,對多數看到這篇文的我的同儕們來說,我們都還身在高度競爭的環境之下,竭盡心力想要脫穎而出或至少不被拋下。在這種自顧不暇的時刻,要做到這點也許確實很難。而即便你不是自顧不暇,有些零和遊戲,比如大學入學、博士後找教職、國家政要選舉這些事,其牽涉的因素之複雜、影響力之大,遠非多數人所能掌握。

但也有些事情不是如此。比如家長或班導希望高中生有好的學習成效,比起按照段考的班級名次給獎勵,也許更應該以實際的得分為標準。因為第一名只有一個,但學生的分數彼此獨立;又或者你和同學們都打算申請國外的博士班,但所有人都對該怎麼申請學校一竅不通。此時比起擔心互相交流情報會讓同學成為你的對手,你更應該擔心各自埋頭苦幹的你們通通成為砲灰。

我覺得有趣的是,從整個社會或世界的觀點來看,大學和博班招生確實是個零和博弈。但如果我們只將目光放在你的班級、你的學校,那它們就不是零和博弈。因為當人們選擇合作(比如組織讀書會、申請互助會(?))時,確實能有更多人拿到想要的成果。換言之,即便無法創造全域非零和的局面,我們能在整體零和的大框架下打造「局部非零和」的環境。

而隨著我們在人生的路上持續前進,成為資深前輩、公司主管、大學教授等等,若是能一直貫徹這樣的作法,受到這份局部非零和博弈幫助的人也將持續增加。這件事就像投票一樣,一個人選擇去投票,沒什麼鳥用。但當每個人都相信自己的這一票的價值,投票就能發揮影響力。同樣的,當人們都有意識的避免零和賽局的出現,也許這個世界也能緩緩的朝更好的方向發展。




[1] 影片中的第四個特質和維基百科的敘述不同。我沒有進一步查證應該寫哪個版本比較好,但就這邊的討論來說無傷大雅。
[2] 我覺得「以牙還牙」這個詞在中文語境下偏向強調反擊的方法,但這個策略用這個名字只是要強調會反擊。

順帶一提:
我認為值得強調的一點是,此處我們選擇合作、選擇友善的策略,並不是因為被灌輸了教條式的道德規範,也不是相信詞藻華麗的心靈雞湯,而是基於理性做出的選擇。之所以這樣說,不僅是因為我本來就很接近理性主義者,更是因為我覺得當人被教條式的灌輸了某個觀念,但卻遭遇了與之相悖的經驗時,很容易憤而往另一個極端發展。比如相信人性本善的人被騙了之後,從此再也不相信任何人之類的。

留言

熱門文章