穩(wěn)健回歸是一套接近密集計算型的現(xiàn)代技術,還能作為探測潛在問題案例的有用的診斷工具!冬F(xiàn)代穩(wěn)健回歸方法》界定了一些對于理解估計的穩(wěn)健性至關重要的術語,列出了異常觀察案例及偏態(tài)分布影響OLS估計的不同方式,討論了各種線性模型穩(wěn)健回歸方法及其限制,以及穩(wěn)健回歸估計的標準誤,簡要描述了廣義線性模型和在這種模型中探測異常觀察案例的幾種診斷法。
在社會科學中,現(xiàn)代穩(wěn)健及耐抗性回歸方法還不太為人所知。這些方法之所以被稱為現(xiàn)代方法,是因為它們通常屬于密集型計算,這是當前很多依賴今天的高速電腦的統(tǒng)一方法的一個特征!冬F(xiàn)代穩(wěn)健回歸方法》通過一套統(tǒng)一的符號系統(tǒng),介紹了不同來源的多種穩(wěn)健回歸方法,以及它們彼此之間的聯(lián)系。在主要統(tǒng)計軟件如SAS和Stata已經(jīng)采用這些蕞新回歸方法的情況下,本書顯得非常及時。
1886年,弗蘭西斯?高爾頓(Francis Galton)發(fā)表了題為遺傳身高向普通回歸(Regression Towads Mediocrity in Hereditary Stature)的開創(chuàng)性文章,從而開啟了今天我們所知的線性回歸統(tǒng)計方法的發(fā)展歷程。通過分析205對父母及928個小孩的數(shù)據(jù),高爾頓發(fā)現(xiàn)相對較高或較矮的父母生養(yǎng)的小孩傾向于不是那么高或矮,這一特征被統(tǒng)計術語概括為向均值回歸。
為了演示回歸是如何處理此類身高數(shù)據(jù)的,我使用了一套相似但只有一個性別的數(shù)據(jù),這應歸功于高爾頓的徒弟卡爾?皮爾森(Karl Pearson)。下圖標繪出了1078對父子的身高狀況(單位是英寸),數(shù)據(jù)用小圈點表示,它們明顯地遵循一種線性趨勢,刻畫出向均值(等于45英寸)回歸的現(xiàn)象。在本圖中,我擬合了一條回歸直線,由實線表示,斜率估計值為0.514,由一般最小二乘估計得到(這一估計及以后其他估計的雙尾檢驗都比常規(guī)的0.001水平顯著得多,因此這里就不報告了)。不管以誰的標準來看,這一數(shù)據(jù)的表現(xiàn)都很不錯。不過,即使是在這一表現(xiàn)良好的數(shù)據(jù)里面,有些案例也比其他的更異常:我們很快就可看到圖中右上角及左下區(qū)的某些案例離其他圍繞在直線周邊的大多數(shù)案例更遠。如果這些案例太過極端,我們就可以從下列標準的快速處理辦法中選擇一個:從分析中剔除這些案例、重新編碼(如果存在編碼錯誤的話),以及在分析中納入更多新變量。但如果沒有處理這些異常(或不那么異常)案例的合理可用的解決辦法,數(shù)據(jù)分析者該怎么辦呢?這正是穩(wěn)健及耐抗性回歸方法(robust and resistant regression method)派上用場的地方。
為了展示一下穩(wěn)健回歸,我對上述數(shù)據(jù)擬合了另外兩條直線(使用的是R軟件里的MASS數(shù)據(jù)包),虛線表示的是用MM-估計量(MM-estimator)估計得到的穩(wěn)健回歸線(斜率估計值=0.502),點線表示的是通過將分位殘差平方最小化(minimization of quantile squared residuals)的耐抗性回歸估計(估計過程中分位殘差最大的案例被忽略)得到的直線(斜率=0.442)?梢钥吹,使用MM-估計得到的穩(wěn)健回歸結果,其斜率只比OLS回歸的稍小。不過,耐抗性回歸得到的估計結果差別更大,所給結論表現(xiàn)出更為嚴重的向均值的回歸。由安德森撰寫的這本著作的焦點在于有效性(validity)的穩(wěn)。ǘ切 [efficiency]的穩(wěn)健),它將幫助社會科學家理解這些方法,并學到穩(wěn)健回歸的原理及應用方法。
在社會科學中,現(xiàn)代穩(wěn)健及耐抗性回歸方法還不太為人所知。這些方法之所以被稱為現(xiàn)代方法是因為它們通常屬于密集型計算(computation intensive),這是當前很多依賴今天的高速電腦的統(tǒng)計方法的一個特征。作為叢書的一部分,本書,尤其是其中關于回歸方法的那些章節(jié)在主要統(tǒng)計軟件如SAS和Stata已經(jīng)采用這些最新回歸方法的情況下是非常及時的。本書通過一套統(tǒng)一的符號系統(tǒng)介紹了不同來源的多種穩(wěn)健回歸方法以及它們彼此之間的聯(lián)系,這正是本書的杰出貢獻之一。為了給讀者們一些實際應用上的幫助,本書也討論了不同方法的相對優(yōu)勢和不足。通過一本這樣的書,社會科學專業(yè)的學生及研究者最終會發(fā)現(xiàn)這些新的回歸方法和經(jīng)典回歸方法一樣平常和易于使用。
羅伯特·安德森(Robert Anderson),加拿大多倫多大學社會學和政治科學教授。他的研究興趣是應用統(tǒng)計學,政治社會學(尤其是態(tài)度及政治行為的社會基礎),社會分層,和工作社會學(the sociology of work)。曾在《美國社會學評論》 (American Sociology Review),《政治學刊》(The Journalof politics)和《社會學方法論》(Sociological Methodology)等期刊發(fā)表論文。
序
第1章 導論
第1節(jié) 何為穩(wěn)健?
第2節(jié) 穩(wěn)健回歸的定義
第3節(jié) 一個真實的例子:20世紀70年代已婚夫婦的性生活頻率
第2章 重要背景
第1節(jié) 偏差與一致性
第2節(jié) 崩潰點/失效點
第3節(jié) 影響函數(shù)
第4節(jié) 相對效率
第5節(jié) 位置測度/位置量數(shù)
第6節(jié) 尺度測度
第7節(jié) M估計
第8節(jié) 各種估計的對比
第3章 穩(wěn)健性、抗擾性與最小二乘回歸
第1節(jié) 一般最小二乘回歸
第2節(jié) 異常案例對OLS估計及標準誤的影響
第4章 線性模型的文件回歸
第1節(jié) L估計量
第2節(jié) R估計量
第3節(jié) M估計量
第4節(jié) GM估計量
第5節(jié) S估計量
第6節(jié) 廣義S估計量
第7節(jié) MM估計量
第8節(jié) 各種估計量的比較
第5章 穩(wěn)健回歸的標準誤
第1節(jié) 穩(wěn)健回歸估計量的漸進標準誤
第2節(jié) 自助標準誤
第6章 廣義線性模型中的權勢案例
第1節(jié) 廣義線性模型
第2節(jié) 穩(wěn)健廣義線性模型
第7章 結論
附錄
注釋
參考文獻
譯名對照表