傾向值匹配法就是將各個受測單元多維度的信息,使用統(tǒng)計方法簡化成一維的數(shù)值,成為傾向值,然后據(jù)之進(jìn)行匹配,匹配的目的就是要找尋實驗組和對照組樣本中擁有相同(或者相似)傾向值的樣本,它們之間的差異,就是因果關(guān)系。這個原理非常簡單,但聰明的讀者肯定會問,什么是多維度的信息?如何簡化它?這都是傾向值匹配法*為關(guān)鍵也是*容易發(fā)生問題的地方!秲A向值匹配法的概述與應(yīng)用:從統(tǒng)計關(guān)聯(lián)到因果推論》的第1章將簡要介紹為什么要對多維信息進(jìn)行降維處理,而第2章將進(jìn)一步講解這背后的理論背景。第3章選擇了4篇學(xué)刊論文,對其中傾向值匹配方法的使用進(jìn)行解析。第4章則就“應(yīng)用R軟件和STATA軟件實現(xiàn)傾向值匹配法”進(jìn)行說明。
2005年春天,我在紐約大學(xué)Adam Przeworski教授的課上,第一次接觸到傾向值匹配法,從此便與它結(jié)下了不解之緣。十年之后,“社會科學(xué)研究方法·前沿與應(yīng)用”叢書召開第一次編寫會,與會青年學(xué)者須各選擇一個方法作為自己的主題,我當(dāng)下就決定介紹這個方法。十年之前,傾向值匹配法在美國社會科學(xué)學(xué)界正處于上升期,許多學(xué)者認(rèn)為因果推斷有了新的解決方法,他們?nèi)绔@至寶,紛紛投入此一方法的使用,并為這個方法編寫各類軟件,以致坊間各式各樣的“傾向值匹配方法”相關(guān)軟件,一度如雨后春筍般層出不窮。不過,就如同Przeworski教授在那堂課后發(fā)表的工作論文中所指出的,這一方法在解決因果推斷問題上存在局限性。學(xué)者們對這個方法的憧憬,其實是個美麗的誤會;之后的數(shù)年間,也即我攻讀博士期間(至2009年),我?guī)缀跻娮C了“傾向值匹配法”在學(xué)術(shù)界發(fā)展變遷的全過程。一方面,其所依據(jù)的理論不斷產(chǎn)生新的突破和改進(jìn),學(xué)者提高了應(yīng)用這個方法的標(biāo)準(zhǔn)和范式;然而,另一方面,他們的努力卻為“傾向值匹配法”敲響了喪鐘,它的絢爛,仿若一顆隕落的新星,暗淡了下來。正如學(xué)術(shù)研究中的許多方法一樣,它們從最初喧囂奪目、令人趨之若鶩的熱鬧,逐漸趨于平靜和理智,這一過程讓身處其中的我不禁扼腕嘆息,同時又贊嘆.于學(xué)界專家學(xué)者們永無休止的探索精神,這或許正是“方法”和一切學(xué)術(shù)研究的魅力所在吧!在這本書的前兩章,我盡可能以由淺入深的方式,向你們介紹這個定量方法中一閃即逝的流星。
我想我可以下個定論,即傾向值匹配法在社會科學(xué)學(xué)界的盛行,與其隸屬的因果推斷理論有高度關(guān)系。20世紀(jì)以來,社會科學(xué)學(xué)者越來越希望能像自然科學(xué)學(xué)者一樣,說因道果,確立研究的“科學(xué)性”與典范性,盡管他們的研究往往發(fā)現(xiàn)的是關(guān)聯(lián)性,而非因果關(guān)系,不過他們依然為此付出了巨大的努力,不斷挑戰(zhàn)與審視自己的做法和觀點(diǎn)。例如,早在1959年,美國社會學(xué)大師Seymour Martin Lipset博士即挑戰(zhàn)了現(xiàn)代化理論,他認(rèn)為關(guān)聯(lián)不等于因果,現(xiàn)代化理論所主張的經(jīng)濟(jì)發(fā)展與民主化的關(guān)系,并不能構(gòu)成因果關(guān)系。正是這樣坦誠直面問題核心的精神,催促著社會科學(xué)學(xué)者們不斷探究解決因果關(guān)系新的研究方法,同時也注定了“傾向值匹配法”這個宣稱可以解決因果推斷基本難題的研究方法,可以于21世紀(jì)初在社會科學(xué)學(xué)界橫空出世!
如果讀到這里,你打算合上這本書,從此遠(yuǎn)離傾向值匹配法,那你正好錯過了這個在當(dāng)代定量方法中最值得學(xué)習(xí)的方法。如果說傾向值匹配法是以最保守的方式進(jìn)行變量間的因果推斷,那么它的不足之處,同樣也是其他方法推斷因果受限的地方。所以,如果說學(xué)者對于這個方法的審慎規(guī)范,摧毀了這個方法的普適性,那么它的隕落同樣也給其他研究方法帶來本質(zhì)上的)中擊。簡言之,我們再不能天真地認(rèn)為回歸分析結(jié)果就能給我們因果關(guān)系,甚至據(jù)此獲得的關(guān)聯(lián)性都有可能是錯的,是謬誤的(請詳見本書關(guān)于共變量重合的討論)!
第1章 因果推論理論概述
1.1 潛在結(jié)果模型
1.1.1 因果態(tài)與實驗分組
1.1.2 因果推論的基本難題
1.1.3 平均處理效用
1.2 社會科學(xué)研究中的因果推論
1.2.1 處理變量的可操作性
1.2.2 單元同質(zhì)性假定
1.2.3 可忽略的處理分配假定
1.2.4 控制混淆共變量
1.2.5 穩(wěn)定單元處理值假定
1.2.6 共變量分布平衡與重合的要求
1.2.7 勿控制處理分配后的變量
1.3 小結(jié)
第2章 使用傾向值匹配法估計因果效用
2.1 傾向值
2.1.1 傾向值的性質(zhì)
2.1.2 估計傾向值
2.2 匹配法
2.2.1 精確匹配法
2.2.2 最近鄰匹配法
2.2.3 區(qū)間匹配法
2.2.4 核匹配法
2.2.5 馬氏距離匹配法
2.2.6 貪婪匹配法與最佳匹配法
2.3 匹配后的檢驗
2.3.1 共變量分布不平衡分析
2.3.2 共變量分布不重合分析
2.3.3 選擇性偏差與敏感性分析
2.4 匹配后估計平均處理效用
2.4.1 使用回歸模型估計平均處理效用
2.4.2 平均處理效用的標(biāo)準(zhǔn)誤差
2.4.3 非二元處理下的平均處理效用
2.5 小結(jié)
第3章 社會科學(xué)案例選讀
3.1 案例評析重點(diǎn)
3.2 教育學(xué)案例:計算機(jī)的使用對中學(xué)生數(shù)學(xué)成績的影響
3.3 心理學(xué)案例:獨(dú)生和非獨(dú)生子女情緒適應(yīng)的差異
3.4 政治學(xué)案例:候選人議題立場與選民投票抉擇
3.5 經(jīng)濟(jì)學(xué)案例:企業(yè)貿(mào)易形態(tài)與工資水平
第4章 應(yīng)用R軟件和S7A了A軟件實現(xiàn)傾向值匹配法
4.1 R程序包
4.2 STATA程序插件
4.3 使用R進(jìn)行傾向值匹配分析LaLonde數(shù)據(jù)
4.4 使用STATA進(jìn)行傾向值匹配分析LaLonde數(shù)據(jù)
參考文獻(xiàn)
表目錄
表1.1 因果推論的基本難題
表1.2 二元處理下的虛擬實驗數(shù)據(jù)
表2.1 兒童血鉛水平的敏感性分析結(jié)果
表4.1 LaLonde數(shù)據(jù)中的變量
《傾向值匹配法的概述與應(yīng)用:從統(tǒng)計關(guān)聯(lián)到因果推論》:
我們再通過一個國際經(jīng)濟(jì)學(xué)的例子來說明違反穩(wěn)定單元處理值假定的情形。核心的因果問題是“出口導(dǎo)向”的發(fā)展模式是否能夠促進(jìn)一國的經(jīng)濟(jì)增長?“出口導(dǎo)向”發(fā)展模式為“處理”,受測單元為世界各個國家與地區(qū),通過比較采用“出口導(dǎo)向”發(fā)展模式的國家(實驗組)與不采用“出口導(dǎo)向”發(fā)展模式的國家的經(jīng)濟(jì)增長率,可以得出“出口導(dǎo)向”發(fā)展模式的處理效用。從世界經(jīng)濟(jì)發(fā)展史中可以了解到,拉丁美洲的巴西采用“出口導(dǎo)向”的發(fā)展模式,乃是受到東亞的韓國、中國香港、新加坡和中國臺灣等國家與地區(qū)的啟發(fā),所以巴西領(lǐng)導(dǎo)人在選擇發(fā)展模式時,勢必度量國內(nèi)經(jīng)濟(jì)發(fā)展的多項要素,并仔細(xì)研究東亞各國與地區(qū)操作該模式的經(jīng)驗,正因如此,即便巴西經(jīng)濟(jì)有所增長,我們也無法得出“出口導(dǎo)向的發(fā)展模式有助于經(jīng)濟(jì)發(fā)展”的結(jié)論。
……