定 價:118 元
叢書名:大數(shù)據(jù)應(yīng)用與技術(shù)叢書
- 作者:(美) Ralph Kimball ... [等] 著
- 出版時間:2017/8/1
- ISBN:9787302475798
- 出 版 社:清華大學(xué)出版社
- 中圖法分類:TP311.13
- 頁碼:708
- 紙張:膠版紙
- 版次:2
- 開本:16K
本書內(nèi)容足夠權(quán)威, 從項目規(guī)劃、需求收集到系統(tǒng)架構(gòu)、維度建模、ETL、BI分析等, 涵蓋數(shù)據(jù)倉庫和BI生命周期的各個核心階段。全書共15章, 具體內(nèi)容如下: 數(shù)據(jù)倉庫與BI概述、項目前期的準(zhǔn)備工作、項目/程序的規(guī)劃、需求定義、數(shù)據(jù)架構(gòu)、維度建模基礎(chǔ)、維度建模任務(wù)于責(zé)權(quán)劃分、事實表、維度表、維度模式與考慮事項、ETL與數(shù)據(jù)質(zhì)量、技術(shù)架構(gòu)上的考量、BI應(yīng)用、維護與成長性分析、終極工具等。
在《數(shù)據(jù)倉庫與商業(yè)智能寶典(第2版)成功設(shè)計、部署和維護DW/BI系統(tǒng)》中,我們以連貫的方式組織了所有這些文章。不過本書并不僅僅是過去的雜志文章和DesignTip一字不變的集合。我們已經(jīng)精簡了多余的內(nèi)容,確保所有文章都以一致詞匯來編寫,并且更新了許多圖片。本書中的文章都進行了重新編輯和改進。一些術(shù)語自其被引入以來已經(jīng)發(fā)生了變化,我們已經(jīng)以追溯的方式使用被廣泛采用的當(dāng)前術(shù)語替換了老的術(shù)語。
●人造鍵現(xiàn)在被稱為代理鍵。
●數(shù)據(jù)集市已經(jīng)被替
●數(shù)據(jù)暫存現(xiàn)在被稱為提取、轉(zhuǎn)換和加載。
●終端用戶應(yīng)用程序已經(jīng)被商業(yè)智能應(yīng)用程序所替代。
●幫助表現(xiàn)在被稱為橋接表。
由于大多數(shù)人都不會從頭到尾一頁不漏地閱讀本書,因此我們需要事先介紹一些常用的縮寫詞:
●DW/BI是端到端數(shù)據(jù)倉庫/商業(yè)智能系統(tǒng)的英文縮寫。這個縮寫對于簡約性來說很有用,不過它也明確地將數(shù)據(jù)倉庫和商業(yè)智能鏈接為一個共存體。最后,它反映出從數(shù)據(jù)倉庫本身作為終點到商業(yè)智能(BI)的重心轉(zhuǎn)換推動我們所做的一切事情。畢竟,數(shù)據(jù)倉庫是所有形式BI的平臺。
●本書中的許多圖片都包含DD(degeneratedimension)、FK(foreignkey)和PK(primarykey)縮寫,它們分別代表退化維度、外鍵和主鍵。
●ETL的意思是提取、轉(zhuǎn)換和加載,這是獲取數(shù)據(jù)并且讓數(shù)據(jù)準(zhǔn)備好暴露給BI工具的標(biāo)準(zhǔn)范式。
●ER(entity-relationship)指的是實體關(guān)系。我們會在探討第三范式(3NF)或者與維度數(shù)據(jù)模型相反的標(biāo)準(zhǔn)化數(shù)據(jù)模型時頻繁使用ER。
●OLAP代表在線分析處理,通常用于將在多維數(shù)據(jù)庫或多維數(shù)據(jù)集中捕獲的維度模型與被稱為星型模式的關(guān)系型DBMS中的維度模型區(qū)分開來。這些關(guān)系型星型模式有時也被稱為ROLAP。
●SCD(slowlychangingdimension)是漸變維度的縮寫,指的是所確立的用于處理維度屬性變更的技術(shù)。
KimballGroup的文章和DesignTip歸檔文件一直都是我們網(wǎng)站(www.kimballgroup.com)上瀏覽量最大的;仡20年前Ralph最初于1995年發(fā)表的DBMS雜志文章,這些歸檔文件探究了超過250個主題,有時比我們的書籍或課程探究的程度還要深。
在《數(shù)據(jù)倉庫與商業(yè)智能寶典(第2版)成功設(shè)計、部署和維護DW/BI系統(tǒng)》中,我們以連貫的方式組織了所有這些文章。不過本書并不僅僅是過去的雜志文章和DesignTip一字不變的集合。我們已經(jīng)精簡了多余的內(nèi)容,確保所有文章都以一致詞匯來編寫,并且更新了許多圖片。本書中的文章都進行了重新編輯和改進。
經(jīng)過慎重的討論之后,我們決定更新整本書中的時間基準(zhǔn)以及內(nèi)容,以便提供2015的視角,而不是將舊日期或者過時的概念留在這些文章中。因此,2007年所寫的文章可能會在一個示例中使用2015年這一時間!當(dāng)出現(xiàn)涉及過去多少年的文章時,我們已經(jīng)將這些時間基準(zhǔn)更新為相對于2015年而言。例如,如果一篇2005年的文章最初描述“在過去5年之間”,那么該文章現(xiàn)在就會描述為“在過去15年之間”。在提及關(guān)于我們多年來的經(jīng)驗、售出的圖書量、編寫的文章或者教過的學(xué)生時,這些也都被更新為2015年的描述。最后,我們偶爾會將像“調(diào)制解調(diào)器”這樣過時技術(shù)的引用變更為更加現(xiàn)代的技術(shù),尤其是“互聯(lián)網(wǎng)”。我們相信,這些變更不會造成誤導(dǎo)或引起混淆,相反,它們會讓本書的閱讀體驗變得更好。
本書讀者對象和目標(biāo)
本書的主要讀者是正在交付數(shù)據(jù)倉庫以便為商業(yè)智能提供支持的分析師、設(shè)計者、建模者或者管理者。本書中的文章描繪了DW/BI系統(tǒng)開發(fā)的整個生命周期,從最初的業(yè)務(wù)需求收集直到最后的部署。我們相信,這一系列文章會充當(dāng)DW/BI系統(tǒng)開發(fā)過程中出現(xiàn)的數(shù)以百計的問題和情況具有深度的極佳參考。
這些文章的范圍涵蓋了對于高度技術(shù)性重點的關(guān)注,在所有情況下,這些文章的基調(diào)都力求提供咨詢。在過去的20年中,這些文章在KimballGroup網(wǎng)站上每天都會被訪問數(shù)千次,因此我們確信它們是有用的。通過組織這些歸檔文件以及系統(tǒng)地編輯這些文章以便確保其一致性和相關(guān)性,為本書增加了重要價值。
內(nèi)容預(yù)覽
本書的內(nèi)容組織對于《數(shù)據(jù)倉庫生命周期工具箱(第二版)》(Wiley出版社于2008年出版)的讀者來說看起來會有些熟悉,因為我們是根據(jù)對應(yīng)于數(shù)據(jù)倉庫/商業(yè)智能(DW/BI)實現(xiàn)的主要里程碑的主題來組織這些文章的。鑒于“Kimball”一詞差不多就是維度建模的代名詞,所以不足為奇的是,本書的大部分內(nèi)容都會專注于該主題。
●第1章:讀本概覽。我們會以Ralph幾年前為DMReview雜志所寫的一系列文章作為本書的開始。這一系列文章以連貫內(nèi)聚的方式簡潔地封裝了Kimball方法,因此這些文章為本書提供了絕佳的概述,類似于克利夫筆記。
●第2章:深入研究之前。Ralph文章的長期讀者會發(fā)現(xiàn),該章充滿了對于舊日的記憶,因為這些文章中的許多內(nèi)容都具有重要歷史意義。有些讓人驚訝的是,盡管這些文章中的大多數(shù)都寫于20世紀90年代,但其內(nèi)容仍然具有相關(guān)性。
●第3章:項目/程序規(guī)劃。在了解了概述和歷史的經(jīng)驗教訓(xùn)之后,第3章會繼續(xù)推進從而啟動DW/BI程序和項目。我們會思考項目團隊和主辦干系人的職責(zé),然后深入研究Kimball生命周期方法。
●第4章:需求定義。要在缺乏業(yè)務(wù)需求的情況下取得DW/BI的成功是很難的。該章將為有效獲得業(yè)務(wù)需求提供具體的建議。它強調(diào)了圍繞業(yè)務(wù)過程來組織需求調(diào)研結(jié)果的重要性,并且提供了就恰當(dāng)?shù)暮罄m(xù)步驟達成組織共識的策略建議。
●第5章:數(shù)據(jù)架構(gòu)。切實理解了業(yè)務(wù)需求之后,我們會將注意力轉(zhuǎn)向數(shù)據(jù)(第11章同樣也會繼續(xù)關(guān)注數(shù)據(jù))。該章首先會論證維度建模的正確性。然后會描述企業(yè)數(shù)據(jù)倉庫總線架構(gòu)、探討敏捷開發(fā)方法以便支持數(shù)據(jù)倉庫,為必不可少的集成和管理工作提供合理化機制,然后將Kimball架構(gòu)與企業(yè)信息工廠的中樞輻射模型作對比。
●第6章:維度建模基礎(chǔ)。該章將介紹維度建模的基礎(chǔ)知識,首先探討事實與維度的區(qū)別,以及在數(shù)據(jù)倉庫中向下鉆取、橫向鉆取和處理時間的核心活動。我們還會探究大家熟悉的關(guān)于維度模型的傳言。
●第7章:維度建模任務(wù)和職責(zé)。第6章涵蓋了圍繞維度建模的根本性“內(nèi)容和原因”,專注于“如何、誰和何時”。第7章描述了維度建模過程和任務(wù),以便組織起一支有效的團隊,不管是全新開始還是重新考慮已有模型。
●第8章:事實表核心概念。第8章的主題可以被描述為“僅僅著眼于事實”。我們首先會探討事實表的粒度性和三種基本類型,然后將我們的注意力轉(zhuǎn)向事實表鍵和退化維度。該章將以常用的事實表模式集錦作為結(jié)尾,其中包括空值、文本和稀疏填充的指標(biāo),以及非常類似于維度屬性的事實。
●第9章:維度表核心概念。在第9章中我們會將注意力轉(zhuǎn)向維度表,從對代理鍵和無處不在的時間(或日期)維度的探討開始。然后將探究角色扮演、雜項和因果性維度模式,隨后將探討對于漸變維度的全面處理,其中包括四種新的高級維度類型。
●第10章:更多的維度模式和注意事項。第10章將用更豐富的維度表范圍來補充前一章的內(nèi)容。我們會描述星型模式和外支架,以及一節(jié)關(guān)于橋接的被大幅更新過的內(nèi)容,以便應(yīng)對多值維度屬性和不規(guī)則的多變層次結(jié)構(gòu)。我們會探討顧客維度中經(jīng)常會遇到的細微差別以及國際化問題。該章會以一系列案例研究作為結(jié)束,其中涵蓋了保險、航程和網(wǎng)絡(luò)、人力資源、金融、電子商務(wù)、文本搜索以及零售。我們鼓勵每個人都仔細研讀這些描述,因為這些模式和推薦做法超出了行業(yè)或應(yīng)用程序邊界。
●第11章:后臺ETL和數(shù)據(jù)質(zhì)量。在第11章中,我們要將話題切換到設(shè)計目標(biāo)維度模型以便填充它。預(yù)先警告:這是篇幅很長的一章,正如根據(jù)該主題你可以預(yù)見到的一樣。本書在該章中提供了大量的新素材。我們首先會描述提取、轉(zhuǎn)換和加載(ETL)數(shù)據(jù)所需的34個子系統(tǒng),以及使用商業(yè)化ETL工具的優(yōu)缺點;诖,我們會深入研究數(shù)據(jù)質(zhì)量的注意事項,為構(gòu)建事實表和維度表提供具體指導(dǎo),并且探討實時ETL的影響。
●第12章:技術(shù)架構(gòu)注意事項。直到第12章,我們才開始探討圍繞技術(shù)架構(gòu)的問題,首先會介紹面向服務(wù)架構(gòu)(serverorientedarchitecture,SOA)、主數(shù)據(jù)管理(masterdatamanagement,MDM)以及打包分析。關(guān)于大數(shù)據(jù)的新的一節(jié)內(nèi)容刊載了Ralph編寫的兩份重要白皮書。該章的最后幾節(jié)內(nèi)容會專注于展示服務(wù)器,其中包括聚合導(dǎo)航和在線分析處理(onlineanalyticalprocessing,OLAP)、用戶界面設(shè)計、元數(shù)據(jù)、基礎(chǔ)設(shè)施和安全性的作用。
●第13章:前臺商業(yè)智能應(yīng)用程序。在第13章中,我們開始介紹DW/BI系統(tǒng)的前臺,其中業(yè)務(wù)用戶會與數(shù)據(jù)進行交互。我們描述了一個典型業(yè)務(wù)分析的生命周期,從歷史績效的審查開始,但并不會止步于此。之后我們會將注意力轉(zhuǎn)向標(biāo)準(zhǔn)化BI報告,然后深入探究數(shù)據(jù)挖掘和預(yù)測式分析。該章會以探究用于業(yè)務(wù)分析的SQL限制作為結(jié)束。
●第14章:維護和發(fā)展的注意事項。在倒數(shù)第2章中,我們?yōu)槌晒Σ渴餌W/BI系統(tǒng)以及保持其健康以便持續(xù)取得成功提供了建議。
●第15章:最后的思考。該章總結(jié)了來自每個KimballGroup原則的關(guān)于數(shù)據(jù)倉庫和商業(yè)智能的最終觀點。這些見解涵蓋了我們已經(jīng)獲得的最重要的來之不易的經(jīng)驗教訓(xùn),以及所能預(yù)見到的一些未來數(shù)據(jù)倉庫可能具有的特性。
導(dǎo)航標(biāo)識
鑒于《數(shù)據(jù)倉庫與商業(yè)智能寶典(第2版)成功設(shè)計、部署和維護DW/BI系統(tǒng)》中文章的廣度和深度,我們非常審慎地找出了20多篇文章作為“Kimball經(jīng)典”,因為它們涵蓋了非常有效的概念,我們和行業(yè)中的許多人在過去20年中反復(fù)地引用了這些文章。這些經(jīng)典的文章使用如下特殊圖標(biāo)作為區(qū)分:
我們期望大多數(shù)人以某種隨機的順序閱讀這些文章,而不是從前到后地閱讀本書。因此,我們特別強調(diào)此讀本的索引,因為我們期望許多讀者會通過搜索特定技術(shù)或建模情形的索引來深入進行探究。
術(shù)語說明
引以為榮的是,Ralph確立的詞匯表如此經(jīng)久不衰并且被廣泛采用,包括維度、事實、漸變維度、代理鍵、事實表粒度、非事實型事實表以及退化維度在內(nèi)的Kimball“特征詞”,在整個行業(yè)中已經(jīng)持續(xù)使用20多年了。不過盡管我們充滿了善意,但一些術(shù)語自其被引入以來已經(jīng)發(fā)生了變化。我們已經(jīng)以追溯的方式使用被廣泛采用的當(dāng)前術(shù)語替換了老的術(shù)語。
●人造鍵現(xiàn)在被稱為代理鍵。
●數(shù)據(jù)集市已經(jīng)被替換成業(yè)務(wù)過程維度模型、業(yè)務(wù)過程主題領(lǐng)域或者主題領(lǐng)域,這取決于上下文。
●數(shù)據(jù)暫存現(xiàn)在被稱為提取、轉(zhuǎn)換和加載。
●終端用戶應(yīng)用程序已經(jīng)被商業(yè)智能應(yīng)用程序所替代。
●幫助表現(xiàn)在被稱為橋接表。
由于大多數(shù)人都不會從頭到尾一頁不漏地閱讀本書,因此我們需要事先介紹一些常用的縮寫詞:
●DW/BI是端到端數(shù)據(jù)倉庫/商業(yè)智能系統(tǒng)的英文縮寫。這個縮寫對于簡約性來說很有用,不過它也明確地將數(shù)據(jù)倉庫和商業(yè)智能鏈接為一個共存體。最后,它反映出從數(shù)據(jù)倉庫本身作為終點到商業(yè)智能(BI)的重心轉(zhuǎn)換推動我們所做的一切事情。畢竟,數(shù)據(jù)倉庫是所有形式BI的平臺。
●本書中的許多圖片都包含DD(degeneratedimension)、FK(foreignkey)和PK(primarykey)縮寫,它們分別代表退化維度、外鍵和主鍵。
●ETL的意思是提取、轉(zhuǎn)換和加載,這是獲取數(shù)據(jù)并且讓數(shù)據(jù)準(zhǔn)備好暴露給BI工具的標(biāo)準(zhǔn)范式。
●ER(entity-relationship)指的是實體關(guān)系。我們會在探討第三范式(3NF)或者與維度數(shù)據(jù)模型相反的標(biāo)準(zhǔn)化數(shù)據(jù)模型時頻繁使用ER。
●OLAP代表在線分析處理,通常用于將在多維數(shù)據(jù)庫或多維數(shù)據(jù)集中捕獲的維度模型與被稱為星型模式的關(guān)系型DBMS中的維度模型區(qū)分開來。這些關(guān)系型星型模式有時也被稱為ROLAP。
●SCD(slowlychangingdimension)是漸變維度的縮寫,指的是所確立的用于處理維度屬性變更的技術(shù)。
RalphKimball創(chuàng)立了KimballGroup。自20世紀80年代中期開始,他就一直是DW/BI行業(yè)關(guān)于維度化方法的思想領(lǐng)袖,并且已經(jīng)培訓(xùn)了超過20000名IT專家。在任職于Metaphor和創(chuàng)立RedBrickSystems之前,Ralph在施樂帕克研究中心(XeroxPARC)參與創(chuàng)建了Star工作站。Ralph擁有斯坦福大學(xué)電子工程專業(yè)的博士學(xué)位。
MargyRoss是KimballGroup和DecisionWorksConsulting的董事長。她從1982年開始就專注于數(shù)據(jù)倉庫和商業(yè)智能。截止現(xiàn)在,Margy已經(jīng)為數(shù)百個客戶提供過咨詢服務(wù),并且向數(shù)萬人講解過DW/BI的實踐。在任職于Metaphor和聯(lián)合創(chuàng)辦DecisionWorksConsulting之前,她畢業(yè)于美國西北大學(xué),并且獲得了工業(yè)工程專業(yè)的學(xué)士學(xué)位。