本書從R語言的使用出發(fā),在重點介紹R語言編程基礎、操作、可視化、統(tǒng)計、高性能計算和機器學習的同時,注重實踐能力的培養(yǎng)和數(shù)據分析與挖掘素質的全面提高。本書分為統(tǒng)計分析基礎和機器學習實踐兩部分,共12章,內容包括R語言概述、數(shù)據訪問、數(shù)據操作、數(shù)據可視化、概率與分布、基本統(tǒng)計分析、回歸分析、方差分析、大數(shù)據高性能計算、機器學習流程、有監(jiān)督學習模型、無監(jiān)督學習模型。本書的重點是讓學生了解R語言數(shù)據分析與挖掘的基本技能和操作方法,并與數(shù)據分析與挖掘的典型方法、算法和應用場景結合。本書內容豐富、體系新穎、結構合理、文字精練,適合作為普通高等院校信息類、管理類和數(shù)學統(tǒng)計類專業(yè)的R語言數(shù)據分析與挖掘課程的教材,也可作為數(shù)據科學行業(yè)相關從業(yè)人員的自學用書。
隨著信息技術的普及和應用,各行各業(yè)產生了大量的數(shù)據,人們持續(xù)不斷地探索處理這些數(shù)據的方法,以期大
限度地從中挖掘有用信息。面對如潮水般不斷增加的數(shù)據,人們不再滿足于數(shù)據的查詢和統(tǒng)計分析,而是期望從數(shù)據中提取信息或者知識為決策服務。數(shù)據挖掘技術突破數(shù)據分析技術的種種局限,結合統(tǒng)計學、數(shù)據庫、機器學習等技術解決從數(shù)據中發(fā)現(xiàn)新的信息并輔助決策這一難題,是正在飛速發(fā)展的前沿學科。近年來,隨著教育部新工科建設的不斷推進,大數(shù)據技術受到廣泛的關注,數(shù)據挖掘作為大數(shù)據技術的重要實現(xiàn)手段,能夠挖掘數(shù)據的關聯(lián)規(guī)則、實現(xiàn)數(shù)據的分類、聚類、異常檢測和時間序列分析等,解決商務管理、生產控制、市場分析、工程設計和科學探索等各行各業(yè)中的數(shù)據分析與信息挖掘問題。
R語言是一種通用的統(tǒng)計計算和數(shù)據可視化開源軟件環(huán)境和編程語言,具有高度可擴展性。R語言同時支持Linux、Windows和Mac操作系統(tǒng)。R語言的前身為貝爾實驗室研發(fā)的S語言。1992年由新西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman創(chuàng)建,并以他們的名字首字母作為項目名稱。2007年Revolution Analytics公司成立,對R語言做商用支持,2015年1月被Microsoft收購。
1997年,R語言正式開源,吸引了世界范圍內各行業(yè)的代碼貢獻者,實現(xiàn)各種各樣的數(shù)據分析方法。截至2018年11月,CRAN(the Comprehensive R Archive Network)官方收錄了13 328個算法庫,常用的包括:
數(shù)據加載:RODBC、RMySQL、RSQLite、XLConnect、xlsx、foreign;
數(shù)據處理:dplyr、tidyr、stringr、lubridate;
數(shù)據可視化:ggplot2、ggvis、rgl、htmlwidgets、googleVis;
數(shù)據建模:car、mgcv、nlme、randomForest、multcomp、glmnet、survival、caret、mlr;
數(shù)據報告:shiny、xtable;
空間數(shù)據:sp、maptools、maps、ggmap;
時間序列和金融數(shù)據:zoo、xts、quantmod;
高性能計算:Rcpp、data.table、parallel;
網頁數(shù)據:XML、jsonlite、httr。
截至本書出版,共有283所高校獲批數(shù)據科學與大數(shù)據技術專業(yè),其中985及211高校占比達13%。目前,國內數(shù)據人才缺口更是達到百萬級。由于其開源性、易用性和強大的數(shù)據分析能力,R語言已成為世界范圍內應用廣泛的數(shù)據科學工具和語言之一。目前,R語言數(shù)據分析與挖掘逐漸成為高校信息類、管理類和數(shù)學統(tǒng)計類專業(yè)的必修課程內容,同時,作為面向各專業(yè)的通識課也廣受歡迎。
本書作為立足于應用型本科數(shù)據科學與大數(shù)據教學的R語言核心課教材,具有如下特色:
(1)內容安排合理且全面,從R語言的基本編程、數(shù)據處理、數(shù)據可視化、統(tǒng)計分析到高性能計算和機器學習,循序漸進,深入淺出。
(2)難度適中,適合作為本科中高年級的核心課教材,零基礎要求,對編程及數(shù)學知識不作為必要基礎。
(3)理論與案例相結合,理論與實踐相結合,包含了泰坦尼克號乘客生存分析、航班準點數(shù)據處理、鳶尾花數(shù)據建模等實踐案例。
本書全面介紹了R語言的基本編程、數(shù)據處理、數(shù)據可視化、統(tǒng)計分析到高性能計算和機器學習,主要內容分為以下兩部分:
第一部分:統(tǒng)計分析基礎。第1章為R語言概述,包括R語言的相關背景、基本概念和基本操作等。第2章為數(shù)據訪問,包括基本數(shù)據類型、數(shù)據的輸入和輸出等。第3章為數(shù)據操作,包括數(shù)據的缺失值處理、轉換、合并和取子集等。第4章為數(shù)據可視化,包括各種圖形元素的繪制和各種圖表的繪制。第5章為概率與分布,包括常用概率和中心極限定理。第6章為基本統(tǒng)計分析,包括描述性統(tǒng)計分析、相關性和常用檢驗等。第7章為回歸分析,包括OLS回歸和回歸診斷等。第8章為方差分析,包括ANOVA模型、單因素和多元方差分析等。
第二部分:機器學習實踐。第9章為大數(shù)據高性能計算,包括大數(shù)據的選擇、聚合、引用、篩選、連接和變形等。第10章為機器學習流程,包括數(shù)據探索、劃分、填充、特征選擇、建模調優(yōu)和測試評估等。第11章主要介紹常用的有監(jiān)督學習模型,包括線性、樸素貝葉斯、k近鄰、決策樹、隨機森林、神經網絡、支持向量機等。第12章主要介紹常用的無監(jiān)督學習模型,包括k均值聚類、DBSCAN聚類、AGNES層次聚類和關聯(lián)分析模型等。
本書由杜賓、錢亮宏、黃勃和高永彬編著。具體分工如下:杜賓編寫第1章到第8章,黃勃編寫第9章,錢亮宏編寫第10章和第11章,高永彬編寫第12章。全書由方志軍、范磊和許華根主審。感謝孫冉、沈燁和周恒對本書的貢獻。
由于編者水平有限,加之時間倉促,書中難免存在疏漏和不足之處,敬請老師和同學批評指正。
編者
2018年11月
杜賓,男,教授,就職于江西財經大學。管理科學與工程專業(yè)博士,1971年10月出生,江西吉安人。主要從事信息系統(tǒng)、機器學習、管理決策、數(shù)據分析等領域的研究,主講課程包括R語言數(shù)據分析基礎、計算機應用技術、運營管理等。錢亮宏,男,畢業(yè)于上海交通大學電子信息與電氣工程學院,1989年8月出生,擁有10年R語言使用經驗,一直奮戰(zhàn)在數(shù)據分析與挖掘領域的第一線,作為金融和互聯(lián)網行業(yè)資深數(shù)據挖掘專家。黃勃:博士,講師,2014年12月武漢大學博士畢業(yè)入職上海工程技術大學,主講了8門本科課程。研究方向為軟件工程,機器學習,人工智能。發(fā)表學術論文30多篇,其中SCI,EI、ISTP三大檢索20篇;獲發(fā)明專利和軟件著作權5項,省部級科技進步獎2項;2016年獲批國家自然科學基金一項。高永彬:博士、講師,就職于上海工程技術大學,博士畢業(yè)于韓國全北國立大學,在模式識別、機器學習領域積累了大量的研究與實戰(zhàn)經驗。特別地,在基于深度學習技術的人臉識別以及車型檢測技術進行了深入地研究,發(fā)表了近30篇期刊/會議論文,取得了豐厚的研究成果,發(fā)表在包括Information Sciences, Pattern Recognition Letters等高水平期刊中,其中SCI收錄5篇,EI收錄4篇。