關于我們
書單推薦
新書推薦
|
合作的進化(修訂版)
本書是博弈論的經(jīng)典之作,作者的一個重要結論就是人們相互作用越頻繁,合作的可能性就越大。關于書名,所謂合作的進化,也就是說,合作不是自然產(chǎn)生的,而是要經(jīng)過一個過程的“進化”才能達成。在這個進化過程中,人們通過學習、試錯逐步向合作演化。書中對于合作提出了幾點建議:不要嫉妒,不要首先背叛,對合作和背叛都要給以回報,不要耍小聰明,并積極參與社會的各種合作,促進合作的進化,通過進化而逐步成熟,最后達到“合作”與“和諧”。這也正是本書的意義所在。
本書是行為領域的經(jīng)典之作,主題是合作的產(chǎn)生和進化。作者以組織的兩輪“重復囚徒困境”競賽為研究對象,結果發(fā)現(xiàn)在兩輪競賽中勝出的都說較簡單的策略“一報還一報”。這一策略簡介明晰,具有善良性、寬容性、可激怒性和策略性,其出色的競賽表現(xiàn)為我們了解個人、組織和國家間合作產(chǎn)生和進化提供了積極的前景,其結論在社會科學的諸領域產(chǎn)生了廣泛深刻的影響,被廣泛征引。
這是一本樂觀的書,但這種樂觀是可信的,它不是天上掉餡餅式的、不切實際的天真愿望(或者革命的狂熱)。
為了可信,一個樂觀主義者首先必須承認基本的現(xiàn)實,它既包括人性的現(xiàn)實,也包括所有生命本性的現(xiàn)實。這里所說的生命是達爾文意義上的生命,它涵蓋宇宙里的所有生命。在適者生存的達爾文世界里,充滿著那些使得生存者生存下來的特質(zhì)。按照達爾文的說法,我們悲觀地假設生命在自然選擇這一層面是極端自私的,對苦難無情地冷漠,殘忍地損人利己。然而從這個被扭曲的起點開始,即使不必是刻意的,類似于友善的兄弟姐妹般的伙伴關系也會出現(xiàn)。這就是羅伯特?阿克塞爾羅德這本不平凡的書要傳遞的令人振奮的信息。 我寫這個前言費了不少周折。20世紀70年代后期,在我的第一本書,也就是闡釋了上述悲觀原理的《自私的基因》出版之后幾年,我意外地收到我原本不認識的美國政治學家羅伯特?阿克塞爾羅德寄來的信件,他發(fā)起了一個“重復囚徒困境”的計算機游戲競賽,并邀請我參加競賽。更準確地說,他邀請我提交一個計算機程序去參賽,這也表明了人和計算機的最重要差別是計算機程序沒有有意識的遠見。其實,那時我并不想?yún)①,但我深深被這個主意所吸引,即使是被動的,我也為這件事做了點有價值的貢獻。阿克塞爾羅德是一位政治學教授,依我之見,他需要和進化生物學家合作。我寫了一封信給他,推薦了W.D.漢密爾頓,一位可以說是當時最杰出的達爾文主義者。很可惜,他后來在2000年一次不幸的剛果叢林探險之后死去了。在70年代,漢密爾頓是阿克塞爾羅德所在的密歇根大學的同事,但在不同的系,他們互相不認識。收到我的信之后阿克塞爾羅德立即與漢密爾頓聯(lián)系,他們合寫的論文是這本書的基礎,并縮寫為本書的第五章。這篇論文與本書的題目一樣,發(fā)表在1981年的《科學》雜志上,并獲得美國科學促進協(xié)會的紐康伯?克利夫蘭獎。 《合作的進化》的第一版于1984年出版,我立即懷著極大的熱情閱讀它,并以傳福音的熱情向我遇見的所有人推薦。在這本書出版后的幾年中,牛津大學的我所教授的大學生都被要求寫與阿克塞爾羅德這本書有關的論文,這是大家最愿意寫的論文之一。但是這本書沒有在英國出版,一般情況下,書面的東西不像電視那樣容易受歡迎。于是,1985年,當英國廣播公司(BBC)的杰里米?泰勒邀請我作為《地平線》節(jié)目的演講嘉賓時,我非常高興地接受了,這個節(jié)目就是以阿克塞爾羅德的工作為基礎的。我們稱這個節(jié)目為“好人先成功”。我不得不在一些我不習慣的地方做節(jié)目,在足球場、英國工業(yè)區(qū)的學校、廢棄的中世紀修道院、百日咳接種疫苗的診所和第一次世界大戰(zhàn)戰(zhàn)壕的復制品前。節(jié)目在1986年春天開播,雖然我不知道是否是因為我那難聽的英格蘭口音,這個節(jié)目一直沒有在美國播出,但它還是取得了很大成功。它還使我在一段時間里成為“寬容的”、“不嫉妒的”和“善良的”公眾代表,至少減輕了我由于《自私的基因》而得到的所謂自私自利的布道士的惡名。我的節(jié)目被稱為“好人先成功”,我被廣稱為“好好先生”。如此贊譽并非來自書或節(jié)目的內(nèi)容。不過,在節(jié)目播出幾周之后,我就被一些工業(yè)企業(yè)家請去吃飯,請教有關善良性的問題。大不列顛一家領先的服裝連鎖店的老板請我吃午飯,專門解釋他的公司是如何善待他的員工的。一個大的糖果公司的女發(fā)言人也請我吃午飯,同樣是為了說明在她的公司里銷售巧克力的內(nèi)在動機不是為了賺錢而是為了在民眾中傳播甜蜜和幸福。我擔心這兩位都有些說不到點子上。 我被一家世界上最大的計算機公司請去組織他們的高管進行一個一整天的策略游戲,目的是讓他們一起友善地合作。他們被分成紅、藍、綠三組,游戲和本書的主題“囚徒困境”游戲差不多。不幸的是,這個公司想達到的合作目標并沒有實現(xiàn)。就像羅伯特?阿克塞爾羅德預言的一樣,雖然宣布游戲在下午4點結束,但紅方和綠方很快在這個時間點前就陷入一連串的背叛之中。在我引導的討論會上,對于突然打破先前一天的好愿望大家都感覺很糟。這些高管要想被說服再在一起工作之前必須接受咨詢。 1989年,我應牛津大學出版社的要求出《自私的基因》的第二版。其中的兩章包含了這十幾年來最讓我興奮的兩本書的內(nèi)容,當然其中首先是阿克塞爾羅德的研究,還是叫“好人先成功”。當時我還是覺得阿克塞爾羅德的書應該在我的國家出版,于是我主動找了企鵝出版社,很高興他們接受了我的推薦,決定出版并請我為他們的英國平裝版寫序。今天,我更高興的是羅伯特?阿克塞爾羅德自己邀請我為他的新版書更新這個序。 毫不夸張地說,在《合作的進化》出版20年來,它已經(jīng)形成一個新的研究領域。1988年,阿克塞爾羅德和他的同事道格拉斯?戴恩編輯了一個和《合作的進化》有關的研究出版物的注釋文獻,他們列出了到當時為止的250多個在“政治與法律”、“經(jīng)濟學”、“社會學和人類學”、“生物學應用”、“進化論”、“自動理論(計算機科學)”、“新的競賽”及“其他”條目下的研究論文。阿克塞爾羅德和戴恩還合作在《科學》(1988年,第242卷,第1385—1390頁)雜志上發(fā)表了題為《合作進化的進展》的論文,總結了1984年以來在這個領域的進展。從那篇綜述以來,大約二十年過去了,被這本書激發(fā)出來的研究結果還在繼續(xù)增加。下圖是每年引用羅伯特?阿克塞爾羅德研究的科學論文的數(shù)量,圖形曲線在《合作的進化》這本書出版的1984年后,變得向上陡峭起來,它清楚地說明一本有影響力的書對這個領域的發(fā)展所具有的作用。合作理論的進展出現(xiàn)在關于預防戰(zhàn)爭(Huth1988)、社會進化(Trivers 1985)、動物之間的合作(Dugatkin 1997)、人類歷史(Wright 2000)、進化對策論(Gintis 2000)、建立社會資本的信任和回報的網(wǎng)絡(Putnam 2000)、微觀經(jīng)濟學(Bowles 2004)、科幻小說(Anthony 1986)的書籍中和羅伯特?阿克塞爾羅德自己的書中(1997和2001)。每年引用羅伯特?阿克塞爾羅德研究的論文數(shù)量但在認真思考這一大堆新的研究之時,我留下的最主要的印象是這本書的基本結論并不需要改變。這幾年我堅持不懈地向?qū)W生、同事和見到的熟人介紹這些結論。我確實認為,如果每一個人都學習和理解它,這個星球就會更美好。世界的領袖們將陷入這本書所說的困境,直到他們讀了這本書之后才能解脫。這對他們來說是件好事,而對我們其他人來說是福音!逗献鞯倪M化》值得取代圣經(jīng)。 理查德·道金斯2006年6月于牛津
羅伯特·阿克塞爾羅德,密歇根大學政治學與公共政策教授,美國科學院院士,著名的行為分析與博弈論專家。除本書外,還著有《合作的復雜性》等著作。
序 理查德·道金斯/1
中文版前言/1 英文版前言/1 第一部分 導論 第一章 合作的問題/3 第二部分 合作的出現(xiàn) 第二章 “一報還一報”在計算機競賽中的勝利/19 第三章 合作的建立/38 第三部分 沒有友誼和預見的合作 第四章 第一次世界大戰(zhàn)塹壕戰(zhàn)中的“自己活也讓別人活”的系統(tǒng)/51 第五章 生物系統(tǒng)中的合作進化(與威廉·D.漢密爾頓合著)/62 第四部分 對參與者和改革者的建議 第六章 如何有效地選擇/77 第七章 如何促進合作/88第五部分結論 第八章 合作的社會結構/101 第九章 回報的魯棒性/118 附錄A 競賽結果/132 附錄B 理論命題的證明/145 參考文獻/153 譯后記/167
第六章如何有效地選擇第六章如何有效地選擇
雖然預見對于合作的進化不是必要的,但它卻對我們很有幫助。因此這一章和下一章將分別對參與者和改革者提供建議。 這一章為那些處于“囚徒困境”的人提供建議。從個體的眼光看,目標是在與對手的一系列對局中盡可能地得高分。由于這個游戲是“囚徒困境”,參與者會受到背叛的短期誘惑,但是通過與對方建立雙方合作的模式可以得到更多的長期好處。對計算機競賽的分析和理論研究的結果,為我們提供了一些有用的信息,即在不同的條件下什么樣的策略會起作用和為什么這些策略能表現(xiàn)得好。這一章就是把這些發(fā)現(xiàn)轉化成對參與者的建議。 在持續(xù)的“重復囚徒困境”中應如何表現(xiàn),下面是四個簡單的建議: 1.不要嫉妒; 2.不要首先背叛; 3.對合作與背叛都要給以回報; 4.不要耍小聰明。 不要嫉妒 人們習慣于考慮零和博弈,在這種情況下,一個人贏,另一個就輸。一個很好的例子就是下棋比賽。為了能贏,一個參賽者必須在大部分時間里比對手做得更好。白棋贏黑棋就輸。 然而生活中的大多數(shù)情況都是非零和的。一般來說,雙方可以都做得很好,也可以都做得很差。雙方的合作是可能的,但并不是總能實現(xiàn)。這就是為什么“囚徒困境”是各種各樣的日常情形的有用模型。 在我的課堂中,我經(jīng)常讓幾對學生玩幾十步“囚徒困境”游戲。我告訴他們目標是他們自己得分,就像每一分就是一美元一樣。我還告訴他們不要理會他們的得分是比對手好一些或差一些。只要他們能得到盡可能多的“美元”。 但是,這些指導一點也不起作用,學生們總是要找一個相對的標準來衡量他們是做得好還是做得差。他們通常使用的標準是把他們的得分與對手的得分相比較。遲早,一個學生為了領先或為了看看會發(fā)生什么而背叛,另一個學生也不甘落后而背叛。因此,情況由于雙方的相互報復而惡化了。不久雙方便會認識到他們做得不夠好,其中一人試圖恢復雙方的合作,但另一個人不能肯定這是否是對方的一個花招,擔心一旦合作開始后又要被占便宜。 人們傾向于采用相對的標準,這個標準經(jīng)常把對方的成功與自己的成功聯(lián)系起來。這種標準導致了嫉妒,嫉妒又導致企圖抵消對方已經(jīng)得到的優(yōu)勢。在“囚徒困境”的形式下,抵消對方的優(yōu)勢只能通過背叛來實現(xiàn)。但是背叛導致更多的背叛和對雙方的懲罰。因此嫉妒是自我毀滅。 要求自己比對方做得好不是一個很好的標準,除非你的目的是消滅對方。在大多數(shù)情況下,這個目的是不可能實現(xiàn)的,或者追求這個目的有可能導致危險的沖突。如果你并不想消滅對方,比較你的得分與對方的得分就可能產(chǎn)生自我毀滅的嫉妒。一個更好的相對標準是把你所做的與處在相同情況下的其他人所做的做比較。對于一個給定的對方策略,你是否做得最好?其他人在這種情況下能做得更好嗎?這就是檢驗表現(xiàn)是否成功的一個很好的標準。 “一報還一報”由于與其他多種多樣策略相處得很好而贏得了競賽。平均來說,它比競賽中的其他任何策略都做得更好。但是“一報還一報”從來沒有一次在游戲中比對方得更多的分!事實上,它不可能比對方多得分。它總是讓對方先背叛,并且它的背叛次數(shù)絕不比對方的多。因此“一報還一報”不是得到和對方一樣多的分,就是比對方略少!耙粓筮一報”贏得競賽不是靠打擊對方,而是靠從對方引出使雙方有好處的行為。“一報還一報”如此堅持引出雙方有利的結果,從而使它獲得比其他任何策略更高的總分。 因此在一個非零和的世界里,為了你自己做得好,你沒有必要非得比對方做得更好。特別當你要和許多不同的對手打交道時更是這樣。只要你自己能做得更好就讓他們每個人做得和你一樣或略好些。沒有理由去嫉妒對方的成功。因為在長時間的“重復囚徒困境”中,其他人的成功是你自己成功的前提。 國會是一個很好的例子。國會議員可以相互合作而不威脅到各自在選區(qū)的名望。對于一個議員的主要威脅不是另一個來自這個國家其他地區(qū)的議員的相對成功,而是來自可能在選區(qū)進行挑戰(zhàn)的人。因此妒忌其他議員從雙方合作得來的成功是沒有多大意義的。 在生意場中也是這樣,一個從供應商那兒買來東西的公司期望有一個供方和買方都有好處的成功的關系。妒忌供方的利潤是完全沒有意義的。任何通過不合作行為(如不按時付賬)來減少這種利潤的企圖,都將激起供方的報復行動,報復行為可以采用多種形式,經(jīng)常以不明顯懲罰形式,諸如拖延發(fā)貨,較低的質(zhì)量保證,不愿意打折扣,或者不交換市場條件變化的信息(Macaulay 1963)。這種報復使得嫉妒代價很大。買者不要擔心賣方的相對利潤,而可以考慮是否有其他更好的購買策略。 不要首先背叛 競賽和理論分析的結果都表明,只要對方合作,你合作就會有好處。第二章中的競賽結果是很令人吃驚的。決定一個規(guī)則表現(xiàn)如何的唯一最好的特征是這個規(guī)則是否善良,也就是說這個規(guī)則是否不首先背叛。在第一輪競賽中,前8名規(guī)則都是善良的,在后7名規(guī)則中沒有一個是善良的。在第二輪競賽中,前15名規(guī)則中只有一個是非善良的(它名列第8),而后15名規(guī)則中只有一個是善良的。 有些不善良的規(guī)則,使用相當復雜的方法來試探它是否能逃脫懲罰。例如“檢驗者”嘗試在第一步背叛,如果對方報復的話,它就馬上撤回。在另一例子中“鎮(zhèn)定者”傾向于在背叛前等待十幾步,看看對方是否能被哄騙和被偶爾占便宜。如果是的話,“鎮(zhèn)定者”就更頻繁地增加背叛,直到對方反擊而被迫撤回。但是這些嘗試首先背叛的策略都表現(xiàn)得不怎么好。因為存在許多由于愿意報復而不被占便宜的策略,所以導致沖突的代價有時是很高的。 甚至許多專家也沒有意識到善良性對避免不必要的沖突的價值。在第一輪競賽中,由對策專家送來的規(guī)則中幾乎有一半是不善良的。參考了第一輪的明顯結果,第二輪比賽中大約有1/3的規(guī)則采用不善良的策略,但是,它們都沒有占到便宜。 第三章的理論結果提供了另一個方式來說明為什么善良的規(guī)則能表現(xiàn)得如此好。由于善良的規(guī)則相互之間相處得很好,因此善良規(guī)則的群體是很難被侵入的。而且能夠阻止單個變異個體侵入的善良規(guī)則的群體也能阻止這個變異規(guī)則的任何小群體的侵入。 理論的結果給善良策略的優(yōu)勢帶來了一個很大的限制,即當未來的相遇相對于從背叛得到的直接好處不足夠重要時,單等對方背叛就不是一個好主意。必須記住只有當折扣系數(shù)w相對于收益參數(shù)R、S、T和P足夠大時,“一報還一報”才是一個穩(wěn)定的策略。特別是命題2表明,如果折扣系數(shù)不足夠大,當對方采用“一報還一報”時,你最好采用“背叛”和“合作”交替的策略或甚至總是背叛。因此,如果對方似乎不再見面,馬上背叛比善良要好。 這個事實對于那些大家都知道的從一個地方遷移到另一個地方的群體有一個不幸的含義。一位人類學家發(fā)現(xiàn)當吉普賽人接近非吉普賽人時,總怕惹上麻煩,非吉普賽人接近吉普賽人時總懷疑會被騙。 例如,一個醫(yī)生被叫去看一個病得很厲害的吉普賽小孩。他不是第一個被叫的醫(yī)生,但他是第一個愿意來的醫(yī)生。我們擁著他走向后臥室,但他在病人屋門前停下說:“這次上門是15美元,上次還欠我5美元,在我看病人之前付我20美元!薄靶校,你會得到的,先看孩子吧,”吉普賽人懇求道。爭執(zhí)了幾個回合后我出面調(diào)停,付10美元后醫(yī)生查看了病人?床≈,我發(fā)現(xiàn)這個吉普賽人出于報復,根本就不想付那另外的10美元。(Gropper1975,pp.106—107) 在加利福尼亞社區(qū),時有發(fā)現(xiàn)吉普賽人不付醫(yī)生賬單,但是市政罰款卻都是馬上就付(Sutherland1975,p.70)。這些罰款大都是由于違反垃圾管理。這些吉普賽人每年冬天都回到同一城市?梢酝茰y這些吉普賽人知道他們必須繼續(xù)與這個城市的垃圾站打交道而不能換另一個。相反,在這個地區(qū)有足夠的醫(yī)生,得罪一個醫(yī)生,在需要時可以再找另一個。 短暫的接觸不是使首先背叛有好處的唯一條件,另一個可能性是合作得不到回報。如果其他人都采用“總是背叛”的策略。那么一個單一的個體就不可能做得比使用“總是背叛”更好。但是,如第三章所示,即使回報性策略(如“一報還一報”)之間相互作用的比例很小,采用“一報還一報”也比采用群體中大多數(shù)采用的“總是背叛”的策略好。第三章的數(shù)值例子說明,只要5%的比例與類似“一報還一報”的策略打交道就能使這個小群體的成員比大多數(shù)背叛的成員做得更好。 那么是否有人會回報某人最初的合作呢?在某些情形下是很難預測的。但是如果有足夠的時間嘗試各種不同的策略,并且在某種方式下,更成功的策略能變得更普遍,那么你就完全可以相信,會有人回報合作的。理由是,即使是一個相當小的善良策略的群體也能侵入到“小人”的群體,并且在它們自己相互之間所得的高分的基礎上成長起來。一旦善良的策略站穩(wěn)腳跟它們就能抵制“小人”的反侵入。 當然,你可以嘗試更保險的方式,即先背叛直到對方合作,才開始合作。然而,競賽的結果表明,這實際上是一個很有風險的策略,因為你最初的背叛就可能引起對方的報復。并使你處于要么被占便宜要么雙方背叛的兩難境地。如果你懲罰對方的報復,這種反應就會一直延續(xù)下去。如果你寬恕了對方,你就得冒被欺負的風險。即使你能避免這些長遠問題,對你的最初背叛的當下報復會使你希望自己從一開始就應該是善良的。 對競賽的生態(tài)分析揭示了另一個為什么首先背叛是很冒險的道理。第二輪競賽中前15名規(guī)則中唯一的非善良策略是名列第8的“哈林頓”。這個規(guī)則表現(xiàn)得很好。因為它與競賽中的名次較低的規(guī)則相遇時得分都很高。在假想的未來生態(tài)競賽中,名次較低的規(guī)則在群體中的比例越來越小。最終能被這個最初挺成功的非善良策略占便宜的策略就越來越少,接著它自己也消亡了。因此生態(tài)分析說明,與那些自己本身得分并不高的策略相遇你表現(xiàn)得很好是沒有用的,它只不過是一個自我毀滅的過程。這個教訓說明,雖然不善良在最初看來似乎是很有希望的,但長期下去它將毀壞使自己成功所必需的環(huán)境。 對合作與背叛都要給予回報 “一報還一報”超常的成功給出了一個簡單的但又是很有力的建議:要回報。在第一步合作之后,“一報還一報”只是簡單地回報對方在上一步的所為。這個簡單的規(guī)則具有驚人的魯棒性。它贏得了第一輪“囚徒困境”計算機競賽,并取得比任何其他由對策專家們送來的規(guī)則更高的平均得分。每一個第二輪競賽的參加者都知道這個結果,但“一報還一報”又贏了第二輪競賽。這個勝利顯然是令人驚訝的。因為每一個參賽者是在考慮了“一報還一報”在第一輪競賽中的勝利結果之后,才提交他們的參賽規(guī)則的。顯然人們都希望他們能干得更好,但是他們錯了。 “一報還一報”不僅贏得競賽本身,而且在假設的繼續(xù)比賽中比其他任何規(guī)則表現(xiàn)得都好。這表明“一報還一報”不僅與最初的各種規(guī)則相處得很好,而且能與那些可能在未來群體中占較大份額的成功的規(guī)則也相處得很好。它不毀壞自己成功的基礎,相反,它在與其他成功的規(guī)則相互交往中繁榮起來。 “一報還一報”所體現(xiàn)的回報在理論上也是很重要的。當未來相對于現(xiàn)在是足夠重要的時候,“一報還一報”是集體穩(wěn)定的。這就意味著,如果每個人都使用“一報還一報”策略,那么對一個特定的個體的最好建議就是也采用“一報還一報”策略;蛘哌@么說,如果你能肯定對方是采用“一報還一報”,并且這種交道將持續(xù)足夠長時間,那么,你最好也采用相同的策略!耙粓筮一報”的回報性的精彩之處在于它能在很大范圍的環(huán)境中表現(xiàn)出色。 事實上,“一報還一報”很善于區(qū)分哪些規(guī)則會回報它的最初合作而哪些則不會。從第三章引入的概念看,它是有最大識別力的。如命題6所示,這就使得它能夠以一種小群體的形式侵入“小人”的世界。并且,它回報背叛也回報合作。這使得它是可激怒的。命題4證明了,像“一報還一報”這樣的善良策略要阻止被侵入,就必須是可激怒的。 在反應對方的背叛時,“一報還一報”保持了懲罰和寬恕的平衡!耙粓筮一報”總是在對方每次背叛之后只背叛一次。這樣它在競賽中取得了成功。那么,是否總是嚴格的一對一回報才是最有效的平衡?這就很難說了,因為稍有不同平衡的規(guī)則并沒有被提送參賽。但有一點是清楚的,即用多于一次背叛來回報對方的背叛將有可能使沖突升級。另一方面,少于一對一的回報將有被占便宜的危險。 “兩報還一報”是一個只有當對方在前兩步連續(xù)背叛時,它才背叛的規(guī)則。因此它是一對二回報。這個相對寬容的規(guī)則如果被提送就會贏得第一輪競賽。它能做得如此好是因為它能避免與某些甚至引起“一報還一報”麻煩的其他規(guī)則陷入雙方報復的境地,但是當它真的被送交參加第二輪競賽時,它甚至沒有進入前1/3名次。原因是在第二輪競賽中有些規(guī)則利用它對單一背叛的寬恕而占它的便宜。 以上分析的啟示是,最優(yōu)的寬恕水平與環(huán)境有關。特別是如果主要的危險是來自那些善于占“好說話”規(guī)則便宜的策略,那么,太多的寬恕就要付出代價。對一個給定的環(huán)境,準確的平衡是很難確定的,但是,競賽的結果證明,對背叛類似一對一的反應可能在大多數(shù)情況下都是相當有效的。因此,對參與者的一個很好的建議是對合作和背叛都要給予回報。 不要耍小聰明 競賽結果表明,在“囚徒困境”的情況下人們?nèi)菀姿P÷斆鳎欢鴱碗s的規(guī)則并不比簡單的規(guī)則做得更好。事實上,所謂最大化規(guī)則表現(xiàn)很差就是因為它們經(jīng)常陷入雙方背叛。這些規(guī)則的共同問題是,使用一些復雜的方法來推斷對方。而這些推斷常常是錯誤的。一部分問題是對方經(jīng)常用試探性的背叛來表明它不會被引誘而合作,但是問題的關鍵是這些最大化規(guī)則沒有考慮到它自己的行為會引起對方的變化。 在決定是否帶傘時,我們并不需要擔心老天會考慮我們的行為。我們可以根據(jù)以往的經(jīng)驗,判斷下雨的可能性。在零和博弈中,如下棋,我們可以放心地假設對手將走他所能發(fā)現(xiàn)的最危險的一步棋。并且我們可以依此去行動。因此,在我們的分析中盡可能地精明和復雜是有好處的。 非零和博弈——像“囚徒困境”——并不是這樣。不像老天下雨,對方對你的行為是有反應的,也不像下棋的對手,在“囚徒困境”中的對方不應該被認為是一心想背叛你的。對方將把你的行為看作你是否回報合作的信號。因此,你自己的行為將會反射到你的身上。 試圖使得分最大化的規(guī)則把對方看作環(huán)境的一個不變的部分而忽略了相互的作用,不管他們在有限的假設下所做的計算是多么的聰明。如果你離開對方適應你、你適應對方、對方又適應于你的適應這樣一直下去的反應過程去模擬你的對方,那么你的聰明是不會有好結果的。這是一條充滿成功希望的艱難之路,顯然在兩次競賽中沒有一個復雜的規(guī)則精于此道。 另一個太聰明的方式是使用“永久報復”的策略。這個策略只要對方合作它就合作,但是一旦對方背叛一次,它就決不合作。由于這個策略是善良的,它與其他善良的策略相處得很好。并且它與那些不怎么反應的規(guī)則(如完全隨機的規(guī)則)相遇時,干得也不錯。但它與許多其他規(guī)則相遇就干得很差,因為對于那些偶爾背叛但準備一旦受懲罰就撤回的規(guī)則來說,它太快放棄合作了。“永久報復”看起來似乎很聰明,因為它為避免背叛提供了最大的激勵,但是它為了自己的利益顯得太嚴厲了。 參加競賽的規(guī)則中還有第三種太聰明的形式是,它們采用的概率策略是如此復雜以至于其他策略不能把它們與純粹的隨機選擇區(qū)分開來。換句話說,就是太多的復雜性就顯得是完全雜亂無章。如果你采用一個看起來是隨機的策略,那么你也就顯得對對方不反應,如果你是不反應的,對方就受不到與你合作的激勵。因此復雜到不可理解是非常危險的。 當然,在許多人類事務中一個使用復雜規(guī)則的人可以向?qū)Ψ浇忉屆恳粋選擇的理由。然而,問題出現(xiàn)了。對方可能懷疑所提供的這些理由,因為它們是如此復雜顯得好像是專門為這個場合設計的。在這個情況下對方將認為不值得有任何反應。因此,對方會把一個顯得不可預測的規(guī)則看作是不可改造的。結果自然是導致背叛。 “一報還一報”在競賽中得到巨大成功的原因之一是它具有很大的清晰性,即它非常容易被對方理解。當你使用“一報還一報”策略時,對方有很好的機會去理解你在干什么。你對任何背叛的一對一的反應是一個很容易被意識到的模式。而且你的未來行為是能被預測的。一旦這些情況發(fā)生了,對方能容易地發(fā)現(xiàn)應付“一報還一報”的最好方式就是與它合作。假設這個游戲有足夠的可能繼續(xù)下去,至少還有下一步相遇。那么當你遇到“一報還一報”策略時只有馬上和它合作是最好的,這樣你將可以在下一步得到一個合作。 另外,在零和博弈(如下棋)和非零和博弈(如“重復囚徒困境”)之間有一個重要的不同。在下棋時,讓你的對手猜疑你的企圖是很有用的,你的對手越是懷疑,他(或她)的策略就越?jīng)]效果。在對手的任何無效行為就是你的利益的零和博弈中,隱瞞你的企圖是很有用的。但是在非零和情況下,如此聰明不總是有好處的。在“重復囚徒困境”中,你要從對方的合作中得到好處。訣竅在于鼓勵合作,一個好的方式就是清楚地表明你愿意回報,言語在這里是有幫助的。但大家都知道行動比言語更響亮。這就是“一報還一報”之所以如此有效的原因。 ……
你還可能感興趣
我要評論
|