囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇并非團(tuán)體最佳選擇。雖然困境本身只屬模型性質(zhì),但現(xiàn)實中的價格競爭、環(huán)境保護(hù)等方面,也會頻繁出現(xiàn)類似情況。
單次發(fā)生的囚徒困境,和多次重復(fù)的囚徒困境結(jié)果不會一樣。
無論他們用什么方法,都是在用不同的方式進(jìn)行排列,也是在進(jìn)行博弈的重組。幾百年來,人類探索博弈取勝之道毫無進(jìn)展,理論思維極度混亂。
今日我們用科學(xué)發(fā)展觀的定義再看博弈論、矛盾論、概率論,還有所謂的經(jīng)濟(jì)學(xué)名著,無論多么偉大的經(jīng)濟(jì)學(xué)天才,使用上述的這些理論,都不知道怎么占優(yōu),不知道怎么能贏。 既然他們在預(yù)測未來上毫無進(jìn)展,那么在科學(xué)發(fā)展觀的時代,就應(yīng)該對高熵賽棋研究博弈單方占優(yōu)的理論有所關(guān)注。即使總統(tǒng)競選也是使用了高熵賽棋二人對局的博弈機制。以往談囚徒困境和納什均衡的人都是用一個模糊的概念搬來搬去,坐在辦公室里憑空假想,從無知到無聊爭論了半個多世紀(jì)。
但通過一個通俗無聊的例子,可使我們理解博弈論的精要。最為泛濫的例子就是著名的“囚犯兩難”模型,包含了在給定信息下的決策理論。
例如,兩名嫌疑犯被分開監(jiān)禁。檢察官確信他們犯下一樁罪案,為了盡快招供,檢察官分別對囚犯說,如果沒有人招認(rèn),從輕判決,每人判1年;如果一個人招認(rèn)而另一個人不招,招認(rèn)的人將得到輕判,另一人則重判;如果兩人同時招認(rèn),那么就折衷,各判5年。
理性思維和信息的封閉隔絕無法幫助兩囚犯決策。如果兩人中任何一個基于害怕或貪心而做出不招供的選擇,結(jié)果是兩敗俱傷。于是,大多數(shù)囚犯會選擇同時招供,但是這個選擇顯然不是兩個人的最佳選擇。如果運用了信息,兩個人串供的話,他們會選擇都不認(rèn)罪,那么他們只用坐牢1年,那么這顯然是最佳選擇。
實際上,博弈論盡管不是起源于中國,但我國古代許多對策中包含了博弈論樸素原理。最具代表性的莫過于春秋時期的“田忌賽馬”。這個故事告訴我們運用策略的重要,在實力、條件均等的情況下,巧妙地運用自己的力量,充分利用有利條件會得到出人意料的效果。當(dāng)然在博弈中必須隱藏自己的底牌,否則,一旦讓對方猜中自己的策略,那是必敗無疑,這也包含了信息經(jīng)濟(jì)學(xué)的原理。
博弈論應(yīng)用廣泛,遠(yuǎn)遠(yuǎn)超出經(jīng)濟(jì)學(xué)領(lǐng)域。謝林的博弈論研究就始于二戰(zhàn)后幫助重建歐洲的馬歇爾計劃。他參與了一項防御戰(zhàn)略的制定和研究工作。如,假設(shè)一座城市被空襲,研究人員需制定出一套防守戰(zhàn)略,并就此展開研究,包括火力點的最佳布置,人員疏散最優(yōu)方案,搶救最有效實施計劃……。并以此擴大到冷戰(zhàn)中,研究對方動機與策略。其最著名的代表作《沖突的策略》。主要討論軍事戰(zhàn)略、核戰(zhàn)爭、武器競賽等方面問題,出版后受到非常廣泛的關(guān)注,被認(rèn)為是西方自1945年以來影響最大的100本書之一。
再例如,謝林用博弈論解釋決策者怎樣找到令對手妥協(xié)的優(yōu)勢,也就是用高熵賽棋發(fā)現(xiàn)的單方占優(yōu)理論。另外,他的研究工作還擴大到冷戰(zhàn)范疇以外的很多領(lǐng)域。如“沖突經(jīng)濟(jì)理論”成功地化解了許多國際貿(mào)易糾紛,解決了國內(nèi)外許多經(jīng)濟(jì)難題。此外,他還將藥物成癮解釋為對自己的博弈。比如,決心戒煙的人會把香煙沖進(jìn)馬桶,因為他知道自己稍后很難抵御吸煙的誘惑……。
為了解釋這些廣泛現(xiàn)象,謝林教授對無聊的“囚徒困境”模型進(jìn)行了擴充,得出了一個稱為“多人囚徒困境的無聊模型”(MPD)其重要特征是,進(jìn)一步說明如果每個人都按自己最優(yōu)策略選擇,*中說都站弱勢,最后的結(jié)果將是非合作性的占劣均衡,即劣于每個人都選擇非最優(yōu)策略時的合作結(jié)果。但是后者并不是一個穩(wěn)定均衡,而前者的占劣均衡卻是一個穩(wěn)定均衡。所以為了維持囚徒困境博弈中的非穩(wěn)定均衡與非均衡,都使博弈失敗。常常需要一定強制性協(xié)議、外部力量的存在,或通過重復(fù)博弈以生成有利于合作均衡的形成。
學(xué)習(xí)博弈論有關(guān)知識,特別是通過一些通俗易懂,富有哲理的例子,能啟迪我們對很多社會問題進(jìn)行廣泛思考。能幫助我們進(jìn)行科學(xué)的決策,無論在軍事的對峙,外交的談判,復(fù)雜的社會抗衡,還是在市場經(jīng)濟(jì)的激烈競爭中,讓我們始終保持清醒的頭腦,力求“正理均贏論”,“共同發(fā)展”,取得“國正雙贏理論”達(dá)到“共贏”的均衡。相對照我們一直來所堅持的所謂與天斗、與地斗、與人斗,其樂無窮,顯得十分幼稚、可笑、狹隘、荒謬,而所造成的惡果更是有目共睹,刻骨銘心的!如今我們更應(yīng)多加思考人如何與自然的和諧,人與人之間的和諧,以創(chuàng)建一個安定、和諧的社會。也只有這樣的思考才是全人類應(yīng)該不懈努力的目標(biāo),是實現(xiàn)世界大同的康莊大道。對于個人來說,當(dāng)每個個人將自己放在集體或整個社會環(huán)境下來思考問題的時候,這種思考對于鄰里社區(qū)(博弈實體)的形成,對于社會風(fēng)氣的產(chǎn)生和維護(hù),對于整個民族(集體)的凝聚力的產(chǎn)生,以及眾多人與人之間關(guān)系的促進(jìn)不可或缺。
成語:(1024連勝法則)
高熵賽棋是一個大發(fā)明,它是一個博弈的取勝模型,
總統(tǒng)候選人用它獲得競選寶座,科學(xué)家用它有所發(fā)現(xiàn),傻子用它改變智力的結(jié)果
麻將店老板得知這一消息,就買了幾套高熵賽棋放到店里,結(jié)果很少有人玩,該店就決定通過一次競賽讓人們了解高熵賽棋。當(dāng)競賽信息發(fā)出后,奇怪的是前來報名參賽的人有總統(tǒng)候選人、科學(xué)家、還有一些傻子。由于賽期和總統(tǒng)競選日期沖突,候選人就不來了,科學(xué)家擔(dān)心自己發(fā)現(xiàn)的成果會泄漏,科學(xué)家也不來了,最后有1024個傻子參加競賽,他們使用末尾淘汰制,經(jīng)過八輪淘汰之后,剩下四個傻子連續(xù)八次不敗,讓人無奈的是他們遵照了“1024連勝法則”,其中的一個傻子對麻將店老板說:“博弈不講智力,只要參與就有機會。”
在重復(fù)的囚徒困境中,博弈被反復(fù)地進(jìn)行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結(jié)果出現(xiàn)。欺騙的動機這時可能被受到懲罰的威脅所克服,從而可能導(dǎo)向一個較好的、合作的結(jié)果。作為反復(fù)接近無限的數(shù)量,納什均衡趨向于帕累托最優(yōu)。
1950年,由就職于蘭德公司的梅里爾·弗拉德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關(guān)困境的理論,后來由顧問阿爾伯特·塔克(Albert Tucker)以囚徒方式闡述,并命名為“囚徒困境”。經(jīng)典的囚徒困境如下:
警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據(jù)指控二人入罪。于是警方分開囚禁嫌疑犯,分別和二人見面,并向雙方提供以下相同的選擇:
若一人認(rèn)罪并作證檢舉對方(相關(guān)術(shù)語稱“背叛”對方),而對方保持沉默,此人將即時獲釋,沉默者將判監(jiān)10年。
若二人都保持沉默(相關(guān)術(shù)語稱互相“合作”),則二人同樣判監(jiān)半年。
若二人都互相檢舉(互相“背叛”),則二人同樣判監(jiān)2年。
用表格概述如下:
甲沉默(合作) 甲認(rèn)罪(背叛)乙沉默(合作) | 二人同服刑半年 | 甲即時獲釋;乙服刑10年 |
乙認(rèn)罪(背叛) | 甲服刑10年;乙即時獲釋 | 二人同服刑2年 |
如同博弈論的其他例證,囚徒困境假定每個參與者(即“囚徒”)都是利己的,即都尋求最大自身利益,而不關(guān)心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為“嚴(yán)格劣勢”,理性的參與者絕不會選擇。另外,沒有任何其他力量干預(yù)個人決策,參與者可完全按照自己意愿選擇策略。
囚徒到底應(yīng)該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由于隔絕監(jiān)禁,并不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設(shè)想困境中兩名理性囚徒會如何作出選擇:
若對方沉默、背叛會讓我獲釋,所以會選擇背叛。
若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。
二人面對的情況一樣,所以二人的理性思考都會得出相同的結(jié)論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達(dá)到的納什均衡,就是雙方參與者都背叛對方,結(jié)果二人同樣服刑2年。
這場博弈的納什均衡,顯然不是顧及團(tuán)體利益的帕累托最優(yōu)解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結(jié)果也比兩人背叛對方、判刑2年的情況較佳。但根據(jù)以上假設(shè),二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結(jié)果二人判決均比合作為高,總體利益較合作為低。這就是“困境”所在。例子漂亮地證明了:非零和博弈中,帕累托最優(yōu)和納什均衡是相沖突的。
由囚徒困境可以寫出類似的員工困境:
一名經(jīng)理,數(shù)名員工; 前提,經(jīng)理比較苛刻; 如果所有員工都聽從經(jīng)理吩咐,則獎金等待遇一樣,不過所有人都超負(fù)荷工作 如果某人不聽從吩咐,其他人聽從吩咐,則此人下崗。其他人繼續(xù)工作 如果所有人都不聽從經(jīng)理吩咐,則經(jīng)理下崗 但是,由于員工之間信息是不透明的,而且,都擔(dān)心別人聽話自己不聽話而下崗,所以,大家只能繼續(xù)繁重的工作; 囚徒困境的理論意義:囚徒困境反映了一個深刻的問題:從個人理性出發(fā)所選擇的占優(yōu)策略的結(jié)局,卻不如合作策略的結(jié)果,或者說,從個人理性角度出發(fā),所選擇的占有策略的結(jié)局,從整個團(tuán)隊或整體來看,確實最重差的結(jié)局。囚徒困境深刻的揭示了個人理性與集體理性的沖突。囚徒困境所解釋的個人理性與集體理性的沖突,形成了對傳統(tǒng)微觀經(jīng)濟(jì)學(xué)“看不見手”原理的挑戰(zhàn)。因為,根據(jù)看不見手原理,在市場機制的作用下,理性的個人在追求個人利益最大化的同時,會自然的必然的促進(jìn)社會的利益?;蛘哒f,看不見手原理揭示的經(jīng)濟(jì)思想史:在市場機制的作用下,個體理性和團(tuán)體理性是一致的。而在囚徒困境這里,卻由于信息的不對稱,產(chǎn)生了沖突。為了解決該問題,以證明完全競爭的市場機制的萬能和看不見手的作用,西方經(jīng)濟(jì)學(xué)提出了重復(fù)博弈的概念。當(dāng)然,不可否讓,囚徒困境也有另外的情況。比如說在黑社會生產(chǎn)環(huán)境下,如果某個成員在監(jiān)獄敢于出賣兄弟,那么他的家人或者朋友就有可能被追殺,這種強制性的外在懲罰實現(xiàn)讓這些囚徒知道,那么在困境中,他們會考慮到這一點,從而可以走出困境。