本書對分類數據分析的方法和模型,及其在社會科學研究中的應用做了全面介紹。它的一個目標是整合變換方法和潛在變量方法,這是兩類不同但又相互補充的處理分類數據分析的傳統方法。這也是di一次在一本單冊書中詳細地介紹針對離散因變量、交叉分類和跟蹤數據的模型與方法對于廣大的社會科學研究者來說,意義重大,既可以使得他們能順利使用合適的定類數據的統計方法,又可以讓他們對統計后的結果作進一步的科學檢驗,使得研究能夠更加深入下去。
修訂譯本說明
《分類數據分析的統計方法》(第2版)一書自2009年7月出版以來,受到廣大學生和教師的高度好評。此書不僅是北京大學-密歇根大學學院暑期量化課程的教學參考書,而且是許多高校講授社會科學量化分析方面課程的教材或參考書。我們經常收到學員和教師對此書的反饋建議和評價。作為譯者,我們感謝讀者對本書翻譯質量的肯定,同時也感謝讀者針對本書一些翻譯細節(jié)提出的很好的建議。這些建議加上我們在教學過程中學生提出的問題,累積起來也有不少。為此,我們在進一步理解原書內容的同時,在有機會的時候也向原書作者謝宇教授和Dan當面請教。借此書翻譯修訂的機會,我們對譯著做了以下幾方面的修正和補充。
(1)糾正了文中的一些錯別字;進一步區(qū)分公式中符號的正斜體,并予以正確標注。
(2)統一了書中的個別關鍵詞。
(3)重新翻譯和修改了一些不太通順或不太符合中文表達習慣的語句,盡可能減少語言表達上存在的明顯的翻譯痕跡。
(4)按照英文書籍的傳統格式,我們在中文譯本“主題索引”的基礎上制作了中文版“索引”,在內容和格式上基本與原著的索引保持一致。
此修訂譯本,可能依然存在對原著的理解不足和翻譯錯誤,或者錯別字,歡迎讀者批評、指正。
譯者
2018年1月12日
中文版序
《分類數據分析的統計方法》(第2版)的中文版終于和讀者見面了,我感到非常高興。
《分類數據分析的統計方法》是我和Daniel Powers合著的,也是我的di一本書。di一版于2000年由美國的學術出版社(Academic Press)出版,第二版于2008年由英國的翡翠出版社(Emerald Group)出版。很榮幸的是,我們能在2009年英文第2版剛剛出版后不久就見到由社會科學文獻出版社出版發(fā)行的中文版。
《分類數據分析的統計方法》是為社會科學——特別是社會學——做定量研究的學者和學生專門寫作的教......
Dan Powers and Xieyu 作者之一的謝宇是美國密歇根大學教授,1959年出生于中國江蘇省鎮(zhèn)江市。1982年獲得上海工業(yè)大學工學學士學位,1984年獲得美國威斯康星大學科學史碩士和社會學碩士學位,1989年獲得同所大學社會學博士學位。畢業(yè)后在美國密歇根大學社會學系任助理教授(1989—1994)、副教授(1994—1996)、正教授(1996年至今)。1996年被授予Perrin講座教授,1999年被授予Huetwell講座教授,2002年被授予社會學系和統計系的Otis Dudley Duncan講座教授。同時擔任密歇根大學社會研究所人口研究中心和調查研究中心的研究教授。2004年當選為美國藝術科學院院士。研究范圍:統計方法、社會分層和社會人口學。著作:《類型變量的分析方法》、《婦女科學家》、《亞裔美國人》(英文)。
圖目錄/1
表目錄/1
中文版序/1
前 言/1
第1 章 緒論/1
1.1 為什么需要分類數據分析?/1
1.2 分類數據的兩種哲學觀點/6
1.3 一個發(fā)展史的注腳/8
1.4 本書特點/9
第2 章 線性回歸模型回顧/11
2.1 回歸模型/11
2.2 再談線性回歸模型/17
2.3 分類變量和連續(xù)型因變量之間的區(qū)別/27
第3 章 二分類數據模型/29
3.1 二分類數據介紹/29
3.2 變換的方法/30
3.3 Logit模型和Probit模型的論證/39
3.4 解釋估計值/54
3.5 其他的概率模型/61
3.6 小結/62
第4 章 列聯表的對數線性模型/64
4.1 列聯表/64
4.2 關聯的測量/68
4.3 估計與擬合優(yōu)度/73
4.4 二維表模型/79
4.5 次序變量模型/89
4.6 多維表的模型/97
第5 章 二分類數據多層模型/110
5.1 導言/110
5.2 聚類二分類數據模型/113
5.3 追蹤二分類數據模型/130
5.4 模型估計方法/136
5.5 項目響應模型/151
5.6 小結/159
第6 章 關于事件發(fā)生的統計模型/161
6.1 導言/161
6.2 分析轉換數據的框架/162
6.3 離散時間方法/163
6.4 連續(xù)時間模型/177
6.5 半參數比率模型/188
6.6 小結/211
第7 章 次序因變量模型/213
7.1 導言/213
7.2 賦值方法/214
7.3 分組數據的Logit模型/216
7.4 次序Logit和Probit模型/220
7.5 小結/232
第8 章 名義因變量模型/234
8.1 導言/234
8.2 多項Logit模型/235
8.3 標準多項Logit模型/237
8.4 分組數據的對數線性模型/242
8.5 潛在變量方法/245
8.6 條件Logit模型/246
8.7 設定問題/251
8.8 小結/258
附錄A 回歸的矩陣方法/259
A.1 導言/259
A.2 矩陣代數/259
附錄B 大似然估計/266
B.1 導言/266
B.2 基本原理/266
參考文獻/285
索 引/295
譯后記/314
圖目錄
圖1-1 四種測量的分類模式/5
圖2-1 關于θ的L對數的大化/19
圖2-2 二分類數據的邏輯斯蒂回歸與線性回歸的比較/27
圖3-1 p的logit和probit變換/38
圖3-2 以累積概率函數曲線切線的斜率表示的邊際效應/57
圖3-3 虛擬變量的邊際效應/58
圖3-4 按家庭收入水平變化的畢業(yè)概率/60
圖3-5 p的互補雙對數變換/61
圖5-1 顯示預測概率向總比例收縮的觀測概率和預測概率/124
圖5-2 模型2按照家庭結構和母親的受教育水平分的婚前生育預測概率/127
圖5-3 家庭別隨機效應分布/129
圖5-4 家庭別隨機效應的經驗貝葉斯估計值/130
圖5-5 觀測的、邊際的和條件的logit/136
圖5-6 β3和σ20的跡線圖與直方圖/142
圖5-7 賦閑比數比的后驗分布(南部居住地vs.非南部居住地)(高中畢業(yè)vs.未畢業(yè))/147
圖5-8 包含3個題項的1PL模型的題項特征曲線/153
圖5-9 2PL模型的題項特征曲線/155
圖5-10 使用LSAT數據估計的1PL和2PL模型的題項特征曲線/159
圖6-1 退學的離散時間風險和生存函數/168
圖6-2 對數累積風險和生存函數圖/204
圖6-3 家庭收入效應的Schoenfeld殘差圖/207
圖6-4 隨時間變化的家庭收入效應圖/209
圖7-1 對應于一個四分類響應變量的累積分布/221
圖7-2 潛在變量和現實結果之間的關系/224
表目錄
表2-1 瑞典于默奧市嬰兒出生后前6個月的死亡數/24
表2-2 列向布局的數據文件/25
表2-3 對數-比率模型的OLS、FGLS和ML估計值/26
表2-4 回歸模型的類型/28
表3-1 按種族、性別和家庭結構分類的高中畢業(yè)生/31
表3-2 用虛擬變量以列的形式概括表3-1的數據/32
表3-3 替代的二分類因變量模型估計結果/38
表3-4 按照種族、性別和家庭結構分類的估計畢業(yè)概率/39
表3-5 比較主效應和二維交互作用模型/50
表3-6 收入和性別對投票傾向的影響/58
表3-7 個人水平數據的logit和probit模型估計值/59
表4-1 受教育水平和對婚前性行為的態(tài)度/65
表4-2 觀測(期望)頻次/66
表4-3 期望概率/67
表4-4 獨立情形下的期望頻次/68
表4-5 各單元格對皮爾遜卡方的貢獻/68
表4-6 獨立情形下的行比例/69
表4-7 觀測數據的行比例/69
表4-8 態(tài)度例子的完整表格/71
表4-9 基于相鄰行和列的局部比數比/72
表4-10 模型A下的皮爾遜卡方構成/74
表4-11 可識別的參數/80
表4-12 Hauser的流動表格/83
表4-13 飽和模型的交互參數:代際流動的例子/83
表4-14 參數μh的估計值/84
表4-15 流動表模型的擬合優(yōu)度統計量/93
表4-16 對墮胎和婚前性行為的態(tài)度/96
表4-17 估計的測度得分/96
表4-18 加州大學伯克利分校的研究生錄取數據/98
表4-19 合并后的研究生錄取數據/99
表4-20 對錄取數據所擬合模型的擬合優(yōu)度統計量/104
表4-21 模型4的交互參數估計值/105
表4-22 三國階級流動數據的模型/107
表4-23 國家別的參數/109
表5-1 生物化學領域的博士后訓練與NIH資金分布/120
表5-2 常規(guī)與隨機截距模型/121
表5-3 觀測比例()與模型預測的比例()/123
表5-4 初次婚前生育的logit模型/126
表5-5 數值積分的支點(u)和權重(p)/129
表5-6 擬合青年就業(yè)數據的追蹤模型/135
表5-7 不同方法的估計值/144
表5-8 觀測的與期望的響應模式/146
表5-9 logit模型擬合統計量/148
表5-10 Bock和Lieberman法學院能力傾向測試(LSAT)數據/157
表5-11 使用LSAT數據估計的1PL和2PL模型/158
表6-1 事件發(fā)生數據/165
表6-2 退學生命表/167
表6-3 人-層(person-level)和人-期(person-period)數據格式/172
表6-4 5次追蹤觀測到的二分類響應序列/172
表6-5 研究退學的離散時間logit模型估計值/175
表6-6 項目完成之前的等待時間/179
表6-7 表6-6所含數據的發(fā)生數-暴露量矩陣/180
表6-8 美國按照年齡、種族和出生結果進行分類的嬰兒死亡數(暴露量,以天為單位)
——1995~1998年/185
表6-9 嬰兒死亡數據的模型及其擬合統計量/186
表6-10 美國嬰兒死亡的基線風險與風險比(1995~1998年)/187
表6-11 事件史數據的概念格式/188
表6-12 分時段事件史數據格式/191
表6-13 表6-12的交互分類數據/192
表6-14 含非比例效應的分段式恒定率模型/192
表6-15 初次婚前生育風險的分段式恒定指數模型/193
表6-16 非比例性診斷檢驗/206
表6-17 含比例效應與非比例效應的Cox回歸模型/208
表7-1 以態(tài)度為例的標準分變換/216
表7-2 受教育水平與對婚前性行為的態(tài)度/219
表7-3 不同參數求解方法下的次序logit估計值/227
表7-4 次序probit估計值與邊際效應/228
表7-5 對婦女就業(yè)的態(tài)度/229
表7-6 次序logit與單獨logit的估計值/230
表7-7 比例比數假定的Brant檢驗/231
表7-8 部分比例比數模型/231
表8-1 多項logit結果/241
表8-2 三維表情況下多項logit和對數線性模型之間的等價/244
表8-3 按照種族和父親的受教育年限分的就業(yè)狀況/244
表8-4 從對數線性模型推出的多項logit估計值/245
表8-5 條件logit模型的估計值/248
表8-6 混合模型的結果/250
表8-7 教育獲得/257