“十四五”全國統(tǒng)計規(guī)劃教材:統(tǒng)計學(xué) 從數(shù)據(jù)到結(jié)論(第五版)
定 價:48 元
叢書名:“十四五”全國統(tǒng)計規(guī)劃教材
- 作者:吳喜之,呂曉玲 著
- 出版時間:2021/11/1
- ISBN:9787503797057
- 出 版 社:中國統(tǒng)計出版社
- 中圖法分類:C8
- 頁碼:241
- 紙張:膠版紙
- 版次:5
- 開本:16開
這本書已經(jīng)有了十幾年的歷史,現(xiàn)在將要出第五版。前面四版已經(jīng)作為參考書或教科書在許多學(xué)校使用。各個學(xué)校的師生對該書提出許多寶貴的意見,并且指出了很多錯誤和不妥之處。讀者的支持和鼓勵,對該書各版的誕生起著關(guān)鍵的作用。第五版在許多地方對前面幾版進行了修改和增減。
免費的自由編程的開源軟件R及Python在國際上已經(jīng)成為數(shù)據(jù)科學(xué)教學(xué)和科研的主要軟件,該書第五版全部采用R及Python軟件來描述計算過程,R及Python軟件非常強大,凡是國際上出現(xiàn)的新方法,都會很快地上傳到R的網(wǎng)站上或出現(xiàn)在Python的應(yīng)用中,不能想象一個涉及數(shù)據(jù)科學(xué)的教師或者研究生不會熟練使用R或者Python。從R和Python的功能和使用者的人數(shù)來說,它已經(jīng)遠遠超過所有的昂貴的商業(yè)軟件。R及Python軟件的絕大部分程序包或模塊的代碼都是公開的,透明是防止腐敗的好方式。此外,由于R及Python在中國的普及越來越廣泛,網(wǎng)上關(guān)于R及Python的互動和幫助的環(huán)境也已經(jīng)形成,中國學(xué)生和實際工作者完全可以趕上國際統(tǒng)計界使用R及Python的主流。
這本書已經(jīng)有了十幾年的歷史,現(xiàn)在將要出第五版。前面四版已經(jīng)作為參考書或教科書在許多學(xué)校使用。各個學(xué)校的師生對本書提出許多寶貴的意見,并且指出了很多錯誤和不妥之處。讀者的支持和鼓勵,對本書各版的誕生起著關(guān)鍵的作用。第五版在許多地方對前面幾版進行了修改和增減。
免費的自由編程的開源軟件R及Python在國際上已經(jīng)成為數(shù)據(jù)科學(xué)教學(xué)和科研的主要軟件,本書第五版全部采用R及Python軟件來描述計算過程,R及Python軟件非常強大,凡是國際上出現(xiàn)的新方法,都會很快地上傳到R的網(wǎng)站上或出現(xiàn)在Python的應(yīng)用中,不能想象一個涉及數(shù)據(jù)科學(xué)的教師或者研究生不會熟練使用R或者Python。從R和Python的功能和使用者的人數(shù)來說,它已經(jīng)遠遠超過所有的昂貴的商業(yè)軟件。R及Python軟件的絕大部分程序包或模塊的代碼都是公開的,透明是防止腐敗的最好方式。此外,由于R及Python在中國的普及越來越廣泛,網(wǎng)上關(guān)于R及Python的互動和幫助的環(huán)境也已經(jīng)形成,中國學(xué)生和實際工作者完全可以趕上國際統(tǒng)計界使用R及Python的主流。
在強大的免費開源軟件不斷普及的情況下,對于并非富裕的中國教育系統(tǒng)及師生,繼續(xù)通過昂貴的商業(yè)軟件來講授作為數(shù)據(jù)科學(xué)的統(tǒng)計變得越來越缺乏吸引力。用國外商業(yè)軟件教學(xué)客觀上鼓勵了非法盜版行為并且抑制了國產(chǎn)軟件的發(fā)展。課文中所有計算過程都附有可以實現(xiàn)的R語句,在每章最后都有相應(yīng)的Python代碼。
作為教科書,講什么或者不講什么應(yīng)該根據(jù)學(xué)生的需要由老師自己安排。實際上,對于任何課程,最好是由任課教師來決定講哪些內(nèi)容以及如何講。因為他們最了解他們所面對的學(xué)生。教科書編者的思維方式不見得和老師的一致,而老師最好按照自己的理解來講述。一個好的教科書,應(yīng)該給教師以較大的余地和自由。
照本宣科無疑是失敗的灌輸式教學(xué)方式,與此相反,如果一堂課使得學(xué)生充滿了疑問及進一步探討的欲望,這堂課就是成功的。科學(xué)是在不斷對現(xiàn)有知識挑戰(zhàn)中發(fā)展的,只滿足于對已有知識或結(jié)論的記憶是不會有前途的。
筆者希望讀者在閱讀本書時能夠以理解統(tǒng)計方法的含義為主,學(xué)會處理數(shù)據(jù),提高學(xué)習(xí)和應(yīng)用能力。在任何環(huán)境下都能夠生存和發(fā)展的知識和能力,就是科學(xué),是人們在生命的歷程中應(yīng)該獲得的。
特別贊賞呂曉玲教授參與本書的寫作,呂曉玲教授認真負責(zé)的精,豐富的教學(xué)經(jīng)驗、以及對數(shù)據(jù)科學(xué)的廣泛探索及實踐對于保證本書的質(zhì)量是極其寶貴的。希望讀者繼續(xù)對本書予以寶貴的支持和批評指正。
前言
第1章 一些基本概念
1.1 統(tǒng)計:作為數(shù)據(jù)科學(xué)
1.2 現(xiàn)實中的隨機性和規(guī)律性,概率和機會
1.3 變量和數(shù)據(jù)
1.4 變量之間的關(guān)系
1.4.1 定性變量間的關(guān)系
1.4.2 定性和定量變量間的混合關(guān)系
1.5 統(tǒng)計、計算機與統(tǒng)計軟件
1.6 本章的Python代碼
1.7 習(xí)題
第2章 數(shù)據(jù)的收集
2.1 數(shù)據(jù)是怎樣得到的
2.2 個體、總體和樣本
2.3 參考資料:抽樣調(diào)查和一些常用的方法
2.3.1 概述
2.3.2 概率抽樣例子
2.3.3 非概率抽樣例子
2.3.4 收集數(shù)據(jù)時的誤差
2.3.5 問卷調(diào)查的問題
2.4 習(xí)題
第3章 數(shù)據(jù)的描述
3.1 如何用圖來表示數(shù)據(jù)
3.1.1 定量變量的圖表示:直方圖、盒形圖、莖葉圖和散點圖
3.1.2 定性變量的圖表示:餅圖和條形圖
3.1.3 其他圖描述法
3.2 如何用少量數(shù)字來概括數(shù)據(jù)
3.2.1 數(shù)據(jù)的“位置”
3.2.2 數(shù)據(jù)的“尺度”
3.2.3 數(shù)據(jù)的標(biāo)準得分
3.3 本章的Python代碼
3 3.1 直方圖
3.3.2 盒形圖
3.3.3 莖葉圖
3.3.4 散點圖
3.3.5 餅圖
3.3.6 條形圖
3.3.7 數(shù)據(jù)的標(biāo)準得分
3.4 習(xí)題
第4章 機會的度量:概率和分布
4.1 得到概率的幾種途徑
4.2 概率的運算
4.3 變量的分布
4.3.1 離散隨機變量
4.3.2 離散分布例子:二項分布
4.3.3 離散分布例子:多項分布
4.3.4 離散分布例子:Poisson分布
4.3.5 離散分布例子:超幾何分布
4.3.6 連續(xù)隨機變量
4.3.7 累積分布函數(shù)
4.3.8 連續(xù)分布例子:正態(tài)分布
4.3.9 通過正態(tài)分布說明連續(xù)分布的概率
4.3.10 連續(xù)分布例子:均勻分布
4.3.11 實際數(shù)據(jù)中變量的經(jīng)驗分布
4.4 抽樣分布
4.4.1 什么是抽樣分布
4.4.2 中心極限定理
4.5 本章的Python代碼
4.5.1 二項分布
4.5.2 Poisson分布
4.5.3 連續(xù)隨機變量的分布
4.5.4 正態(tài)分布
4.5.5 均勻分布
4.5.6 經(jīng)驗分布
4.5.7 抽樣分布
4.6 習(xí)題
第5章 有監(jiān)督學(xué)習(xí)——回歸和分類
5.1 問題的提出
5.1.1 多變量相互作用的真實世界
5.1.2 數(shù)據(jù)科學(xué)的核心是有監(jiān)督學(xué)習(xí)的預(yù)測
5.2 通過數(shù)據(jù)案例理解有監(jiān)督學(xué)習(xí):分類問題
5.2.1 例5.1欺詐競標(biāo)數(shù)據(jù)
5.2.2 探索性數(shù)據(jù)分析
5.2.3 建立一個決策樹分類模型
5.2.4 如何選擇分類決策樹的拆分變量
5.2.5 預(yù)測精度的交叉驗證
5.2.6 例5.1欺詐競標(biāo)數(shù)據(jù)決策樹分類的變量重要性
5.3 通過數(shù)據(jù)案例理解有監(jiān)督學(xué)習(xí):回歸問題
5.3.1 例5.2混凝土強度數(shù)據(jù)
5.3.2 探索性數(shù)據(jù)分析
5.3.3 建立一個決策樹回歸模型
5.3.4 如何選擇回歸決策樹的拆分變量
5.3.5 回歸中的交叉驗證預(yù)測精度與殘差的區(qū)別
5.3.6 例5.2 混凝土強度數(shù)據(jù)回歸預(yù)測精度的交叉驗證
5.3.7 例5.2 混凝土強度數(shù)據(jù)決策樹回歸的變量重要性
5.4 若干有監(jiān)督學(xué)習(xí)模型
5.4.1 更多的例子
5.4.2 兩類模型的概述及交叉驗證
5.4.3 bagging分類和回歸
5.4.4 adaboost分類
5.4.5 隨機森林分類和回歸
5.4.6 SVM分類和回歸
5.4.7 最小二乘線性回歸
5.4.8 用于二分類的logistic回歸
5.4.9 線性判別分析分類
5.5 本章自編R函數(shù)和一些作圖代碼
5.5.1 平衡分類因變量各水平的分折函數(shù)
5.5.2 單獨模型的分類交叉驗證函數(shù)(只用于本章的模型)
5.5.3 單獨模型的回歸交叉驗證函數(shù)(只用于本章的模型)
5.5.4 課文中一些圖的代碼
5.6 本章的Python代碼
5.6.1 -些需要的模塊
5.6.2 通過數(shù)據(jù)案例理解有監(jiān)督學(xué)習(xí):分類問題
5.6.3 通過數(shù)據(jù)案例理解有監(jiān)督學(xué)習(xí):回歸問題
5.6.4 模型的概述及交叉驗證
5.6.5 bagging分類和回歸
5.6.6 adaboost分類
5 6 7 隨機森林分類和回歸
5.6.8 SVM分類和回歸
5.6.9 最小二乘線性回歸
5.6.10 Iogistic回歸二分類
5.6.11 線性判別分析做多分類
5.6.12 本章要用的一些Python自編函數(shù)
5.7 參考資料
5.7.1 線性判別分析的一些數(shù)學(xué)細節(jié)
5.7.2 支持向量機的一些數(shù)學(xué)細節(jié)
5.8 習(xí)題
第6章 無監(jiān)督學(xué)習(xí)——多元分析
6.1 尋找多個變量的代表:主成分分析和因子分析
6.1.1 主成分分析
6.1.2 因子分析
6.1.3 因子分析和主成分分析的一些注意事項
6.2 把對象分類:聚類分析
6.2.1 如何度量距離遠近?
6.2.2 事先要確定分多少類:k均值聚類
6.2.3 事先不用確定分多少類:分層聚類
6.2.4 聚類要注意的問題
6.3 兩組變量之間的相關(guān):典型相關(guān)分析
6.3.1 兩組變量的相關(guān)問題
6.3.2 典型相關(guān)分析
6.4 列聯(lián)表行變量和列變量的關(guān)系:對應(yīng)分析
6.5 參考資料:一些概括及公式
6.5.1 主成分分析和因子分析
6.5.2 聚類分析
6.5.3 典型相關(guān)分析
6.5.4 對應(yīng)分析
6.6 本章的Python代碼
6.6.1 主成分分析
6.6.2 因子分析
6.6.3 聚類分析
6.6.4 典型相關(guān)分析
6.6.5 對應(yīng)分析
6.7 習(xí)題
……
第7章 隨時間變化的對象:時間序列分析
第8章 生存分析簡介
第9章 基本軟件:R和Python
第10章 附錄:統(tǒng)計顯著性:假設(shè)檢驗和區(qū)間估計
參考文獻