企業(yè)級(jí)數(shù)據(jù)與AI項(xiàng)目成功之道
定 價(jià):89 元
- 作者:[美]尼爾·菲什曼(Neal Fishman),[美]科爾·斯特萊克(Cole Stryker)
- 出版時(shí)間:2021/11/1
- ISBN:9787111684763
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類(lèi):F272.7
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
只有在可以一致地提供預(yù)測(cè)性的業(yè)務(wù)見(jiàn)解并在整個(gè)組織范圍內(nèi)擴(kuò)展時(shí),數(shù)據(jù)分析和AI才能產(chǎn)生價(jià)值。這也是眾多企業(yè)所面臨的巨大挑戰(zhàn)。本書(shū)概述了有效且實(shí)用的組織、管理和評(píng)估數(shù)據(jù)的方法,因此有助于建立信息體系結(jié)構(gòu)以更好地推動(dòng)AI和數(shù)據(jù)科學(xué)的發(fā)展。本書(shū)主要包括以下內(nèi)容:簡(jiǎn)化數(shù)據(jù)管理,使數(shù)據(jù)隨時(shí)隨地可用;縮短實(shí)現(xiàn)AI用例的價(jià)值實(shí)現(xiàn)時(shí)間;使整個(gè)企業(yè)都可以訪問(wèn)AI和數(shù)據(jù)洞察力;動(dòng)態(tài)、實(shí)時(shí)地?cái)U(kuò)展復(fù)雜的AI場(chǎng)景;開(kāi)發(fā)可帶來(lái)可預(yù)測(cè)的、可重復(fù)的價(jià)值的信息體系結(jié)構(gòu)。本書(shū)可以使包括架構(gòu)師、開(kāi)發(fā)人員、產(chǎn)品所有者和業(yè)務(wù)主管在內(nèi)的各種角色受益。
“我想做的是交付結(jié)果!
Lou Gerstner
Business Week
為何你需要此書(shū)
“19世紀(jì)末,誰(shuí)也不會(huì)相信地球正受到智慧生命的密切注視……”
1898年,H. G. Wells出版的《世界大戰(zhàn)》(The War of the Worlds,Harper & Brothers)以此開(kāi)場(chǎng)。在20世紀(jì)末,這樣的懷疑也同樣盛行。但與19世紀(jì)以來(lái)的虛構(gòu)的注視者不同,20世紀(jì)晚期的注視者是真實(shí)存在的,而這些注視者就是具有開(kāi)拓性的數(shù)字化公司。在《世界大戰(zhàn)》中,單細(xì)胞細(xì)菌被證明是兼具進(jìn)攻性和防御性的決定性武器。如今,這一武器便是數(shù)據(jù)。當(dāng)數(shù)據(jù)被錯(cuò)誤使用時(shí),企業(yè)將會(huì)面臨突然崩潰的局面;當(dāng)數(shù)據(jù)被正確使用時(shí),企業(yè)則會(huì)茁壯成長(zhǎng)。
自象形文字和字母出現(xiàn)以來(lái),數(shù)據(jù)已然開(kāi)始發(fā)揮其作用。商業(yè)智能(Business Intelligence,BI)一詞的出現(xiàn),可以追溯至Richard Millar Devens 1865年出版的Cyclopaedia of Commercial and Business Anecdotes一書(shū)。盡管如此,直至制表機(jī)器公司(Tabulating Machine Company,IBM前身)創(chuàng)始人Herman Hollerith發(fā)明了打孔卡片,數(shù)據(jù)的大規(guī)模采集才得以實(shí)現(xiàn)。Hollerith初是為1890年美國(guó)政府人口普查而發(fā)明的打孔制表技術(shù)。1937年,美國(guó)政府與IBM簽署協(xié)議,運(yùn)用其打孔卡讀卡機(jī),為涉及2600萬(wàn)個(gè)社會(huì)保障號(hào)碼的大規(guī)模簿記項(xiàng)目提供服務(wù)和支持。
1965年,美國(guó)政府建立了個(gè)數(shù)據(jù)中心,以存儲(chǔ)其7.42億張納稅申報(bào)單和1.75億套錄有指紋信息的計(jì)算機(jī)磁帶。隨著互聯(lián)網(wǎng)以及后來(lái)的移動(dòng)設(shè)備和物聯(lián)網(wǎng)的出現(xiàn),私有企業(yè)能夠基于日益增加的與消費(fèi)者共享的觸點(diǎn)數(shù),建立大量的消費(fèi)者數(shù)據(jù)存儲(chǔ),從而使大規(guī)模數(shù)據(jù)使用真正得以實(shí)現(xiàn)。平均而言,每個(gè)人每秒創(chuàng)建的數(shù)據(jù)量超過(guò)1.7MB,這樣的信息量大致相當(dāng)于154萬(wàn)億張打孔卡片。通過(guò)將數(shù)據(jù)量與數(shù)據(jù)有效處理能力相結(jié)合,數(shù)據(jù)并不僅僅是被簡(jiǎn)單記錄和保存,而是得以大規(guī)模使用。
顯然,我們正處于大數(shù)據(jù)時(shí)代。企業(yè)正在爭(zhēng)先恐后地整合各種能完成高級(jí)分析的能力,如人工智能和機(jī)器學(xué)習(xí),從而限度地利用其自身的數(shù)據(jù)。如何通過(guò)具有前瞻性的預(yù)判來(lái)改善市場(chǎng)的商業(yè)表現(xiàn),已然成為強(qiáng)制性需求。諸如數(shù)據(jù)湖(Data Lake)之類(lèi)的數(shù)據(jù)管理概念也被提出,以指導(dǎo)企業(yè)進(jìn)行數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)管理。在許多方面,數(shù)據(jù)湖與更早的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(Enterprise Data Warehouse,EDW)形成了鮮明對(duì)比。通常而言,企業(yè)數(shù)據(jù)倉(cāng)庫(kù)僅接受已被視為有用的數(shù)據(jù),且其內(nèi)容的組織方式高度系統(tǒng)化。
在被誤用的情況下,一個(gè)數(shù)據(jù)湖只不過(guò)是非結(jié)構(gòu)化和未處理的海量數(shù)據(jù)的存儲(chǔ)地,許多這樣的數(shù)據(jù)永遠(yuǎn)都不會(huì)被使用。然而,通過(guò)高級(jí)分析和機(jī)器學(xué)習(xí)模型,數(shù)據(jù)湖可以有效地得到利用。
但是,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖能否真正實(shí)現(xiàn)企業(yè)改善商業(yè)表現(xiàn)的目的?更簡(jiǎn)潔地說(shuō),企業(yè)是否已經(jīng)意識(shí)到存儲(chǔ)數(shù)據(jù)之地在商業(yè)方面的價(jià)值?
全球信息技術(shù)研究和咨詢公司—高德納咨詢公司(Gartner Group)對(duì)此進(jìn)行了引人深思的分析。據(jù)估計(jì),超過(guò)一半的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)嘗試都是失敗的,而新的數(shù)據(jù)湖的情況甚至更糟。高德納的分析師曾預(yù)測(cè),數(shù)據(jù)湖的失敗率可能高達(dá)60%。然而,現(xiàn)在高德納認(rèn)為這個(gè)數(shù)字過(guò)于保守,實(shí)際失敗率可能接近85%。
為什么諸如企業(yè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖這樣的方案的失敗率如此驚人?簡(jiǎn)單來(lái)說(shuō),開(kāi)發(fā)適當(dāng)?shù)男畔⒓軜?gòu)并非易事。
與企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的失敗原因相同,數(shù)據(jù)科學(xué)家采用的許多方法也未能意識(shí)到如下幾點(diǎn):
企業(yè)性質(zhì)。
企業(yè)的業(yè)務(wù)運(yùn)營(yíng)。
變化的隨機(jī)性和潛在的巨大性。
數(shù)據(jù)質(zhì)量的重要性。
在模式設(shè)計(jì)和信息架構(gòu)中應(yīng)用不同技術(shù)的方式,這可能會(huì)影響組織應(yīng)對(duì)變化的準(zhǔn)備。
分析表明,數(shù)據(jù)湖和大數(shù)據(jù)計(jì)劃失敗率較高的原因并不在于技術(shù)本身,而是在于技術(shù)人員應(yīng)用技術(shù)的方式。
在我們與企業(yè)客戶的對(duì)話中,這些方面很快就變得不言而喻。在討論數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖時(shí),我們經(jīng)常面臨諸多問(wèn)題,例如:“對(duì)于每一種方式而言,我們都有很多選擇,選擇哪一個(gè)?”經(jīng)常會(huì)出現(xiàn)組織中的一個(gè)部門(mén)需要數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ),但是其需求無(wú)法通過(guò)以前的數(shù)據(jù)存儲(chǔ)方式得到滿足。因此,該部門(mén)不再嘗試重塑或更新已有的數(shù)據(jù)倉(cāng)庫(kù)或者數(shù)據(jù)湖,而是創(chuàng)建一個(gè)全新的數(shù)據(jù)存儲(chǔ)區(qū)域。這樣做的結(jié)果往往是一個(gè)多種數(shù)據(jù)存儲(chǔ)解決方案的大雜燴,彼此之間不能有效結(jié)合,從而喪失數(shù)據(jù)分析的機(jī)會(huì)。
顯然,新技術(shù)可以提供許多實(shí)實(shí)在在的好處,但是除非對(duì)這些技術(shù)進(jìn)行嚴(yán)謹(jǐn)?shù)牟渴鸷凸芾恚駝t,這些好處無(wú)法實(shí)現(xiàn)。與傳統(tǒng)建筑架構(gòu)的設(shè)計(jì)不同,信息架構(gòu)的設(shè)計(jì)無(wú)法做到一勞永逸。
雖然組織可以控制如何獲取數(shù)據(jù),但是不能控制所需要的數(shù)據(jù)如何隨時(shí)間變化。組織往往是脆弱的,因?yàn)楫?dāng)環(huán)境發(fā)生變化時(shí),信息架構(gòu)可能會(huì)崩潰。只有靈活的、自適應(yīng)的信息架構(gòu)才能適應(yīng)新的環(huán)境。針對(duì)動(dòng)態(tài)目標(biāo),設(shè)計(jì)和部署解決方案是困難的,但這個(gè)挑戰(zhàn)并非不可克服。
很多信息技術(shù)專(zhuān)業(yè)人士都認(rèn)為“垃圾輸入等于垃圾輸出”這個(gè)草率斷言已經(jīng)過(guò)時(shí)了。實(shí)際上,數(shù)十年來(lái),垃圾數(shù)據(jù)一直給分析和決策過(guò)程帶來(lái)困擾。管理不善的數(shù)據(jù)和缺乏一致性的表示對(duì)每一個(gè)人工智能項(xiàng)目來(lái)說(shuō)依然是危險(xiǎn)信號(hào)。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)對(duì)數(shù)據(jù)質(zhì)量的要求尤其高。就像硬幣的兩面,低質(zhì)量數(shù)據(jù)可能帶來(lái)兩種具有破壞性的影響。一方面,與歷史數(shù)據(jù)相關(guān)的低質(zhì)量數(shù)據(jù)會(huì)使預(yù)測(cè)模型的訓(xùn)練失真;另一方面,新數(shù)據(jù)會(huì)使模型失真,對(duì)決策制定產(chǎn)生負(fù)面影響。
作為一種可共享資源,當(dāng)數(shù)據(jù)質(zhì)量不佳時(shí),數(shù)據(jù)通過(guò)服務(wù)層像病毒一樣暴露在整個(gè)組織中,從而影響每一個(gè)接觸此數(shù)據(jù)的人。因此,人工智能的信息架構(gòu)必須能減少與數(shù)據(jù)質(zhì)量相關(guān)的傳統(tǒng)問(wèn)題,促進(jìn)數(shù)據(jù)流動(dòng),并在必要的時(shí)候?qū)崿F(xiàn)數(shù)據(jù)隔離。
本書(shū)的目的是讓你了解企業(yè)如何構(gòu)建信息架構(gòu),從而為成功的、可持續(xù)的、可擴(kuò)展的人工智能部署鋪平道路。本書(shū)包括一個(gè)結(jié)構(gòu)化框架和建議,既兼顧實(shí)用性又具有可操作性,可以幫助企業(yè)完成信息架構(gòu),進(jìn)而從人工智能技術(shù)中獲益。
本書(shū)主要內(nèi)容
我們將從第1章開(kāi)始,對(duì)人工智能階梯進(jìn)行討論。人工智能階梯是IBM開(kāi)發(fā)的一個(gè)說(shuō)明性工具,用來(lái)演示一個(gè)組織要持續(xù)從人工智能技術(shù)中獲益所必須攀登的“步驟”或“梯級(jí)”。由此出發(fā),第2章和第3章涵蓋了數(shù)據(jù)科學(xué)家和信息技術(shù)領(lǐng)導(dǎo)者在攀登人工智能階梯的過(guò)程中必須注意的一系列因素。
在第4章和第5章中,我們將探索關(guān)于數(shù)據(jù)倉(cāng)庫(kù)及其如何讓位于數(shù)據(jù)湖的歷史,并討論如何根據(jù)地形學(xué)和拓?fù)鋵W(xué)來(lái)設(shè)計(jì)數(shù)據(jù)湖。這些討論將深入數(shù)據(jù)的接收、治理、存儲(chǔ)、處理、訪問(wèn)、管理和監(jiān)測(cè)等方面。
在第6章中,我們將討論開(kāi)發(fā)運(yùn)營(yíng)(DevOps)、數(shù)據(jù)運(yùn)營(yíng)(DataOps)、機(jī)器學(xué)習(xí)運(yùn)營(yíng)(MLOps)如何使組織得以更好地實(shí)時(shí)使用數(shù)據(jù)。在第7章中,我們將深入探討數(shù)據(jù)治理和集成數(shù)據(jù)管理的基本要素。為了便于數(shù)據(jù)科學(xué)家確定數(shù)據(jù)的價(jià)值,我們將討論數(shù)據(jù)價(jià)值鏈和數(shù)據(jù)可訪問(wèn)性、可發(fā)現(xiàn)性的需求。
由于組織內(nèi)部的不同角色需要以不同的方式與數(shù)據(jù)進(jìn)行交互,第8章將介紹不同的數(shù)據(jù)訪問(wèn)方式,還將進(jìn)一步討論數(shù)據(jù)價(jià)值評(píng)估,并解釋如何使用統(tǒng)計(jì)學(xué)協(xié)助實(shí)現(xiàn)數(shù)據(jù)價(jià)值排序。
在第9章中,我們將討論信息架構(gòu)中可能出現(xiàn)的問(wèn)題,以及整個(gè)組織的數(shù)據(jù)素養(yǎng)對(duì)于規(guī)避此類(lèi)問(wèn)題的重要性。
后,在第10章中,我們將對(duì)開(kāi)發(fā)人工智能信息架構(gòu)的相關(guān)情況進(jìn)行概述。第10章還提供了將上述理論背景應(yīng)用于現(xiàn)實(shí)世界的信息架構(gòu)開(kāi)發(fā)的可行步驟。
尼爾·菲什曼(Neal Fishman)是IBM的杰出工程師,并且是IBM全球業(yè)務(wù)服務(wù)組織內(nèi)基于數(shù)據(jù)的病理學(xué)的首席技術(shù)官。尼爾也是Open Group認(rèn)證的杰出IT架構(gòu)師。
科爾·斯特萊克(Cole Stryker)是一名常駐洛杉磯的作家和記者。他是Epic Win for Anonymous和Hacking the Future的作者。
題記
本書(shū)贊譽(yù)
序言
前言
致謝
關(guān)于作者
第1章 攀登人工智能階梯1
1.1 人工智能的數(shù)據(jù)準(zhǔn)備2
1.2 重點(diǎn)技術(shù)領(lǐng)域2
1.3 一步一個(gè)腳印地攀登階梯3
1.4 不斷適應(yīng)以保持組織的相關(guān)性6
1.5 基于數(shù)據(jù)的推理在現(xiàn)代業(yè)務(wù)中至關(guān)重要8
1.6 朝著以人工智能為中心的組織邁進(jìn)11
1.7 本章小結(jié)12
第2章 框架部分I:使用人工智能的注意事項(xiàng)14
2.1 數(shù)據(jù)驅(qū)動(dòng)決策制定15
2.1.1 通過(guò)詢問(wèn)來(lái)獲得洞見(jiàn)15
2.1.2 信任矩陣16
2.1.3 衡量標(biāo)準(zhǔn)和人類(lèi)洞見(jiàn)的重要性18
2.2 使數(shù)據(jù)與數(shù)據(jù)科學(xué)民主化18
2.3 是的,先決條件:組織數(shù)據(jù)必須有先見(jiàn)之明20
2.4 促進(jìn)變革之風(fēng):有組織的數(shù)據(jù)如何縮短反應(yīng)時(shí)間23
2.5 質(zhì)疑一切24
2.6 本章小結(jié)26
第3章 框架部分II:使用數(shù)據(jù)和人工智能的注意事項(xiàng)27
3.1 個(gè)性化每個(gè)用戶的數(shù)據(jù)體驗(yàn)28
3.2 上下文的影響:選擇正確的數(shù)據(jù)顯示方式29
3.3 民族志研究:通過(guò)專(zhuān)業(yè)數(shù)據(jù)增進(jìn)理解32
3.4 數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量33
3.4.1 分解數(shù)據(jù)的價(jià)值34
3.4.2 通過(guò)數(shù)據(jù)治理提供結(jié)構(gòu)34
3.4.3 為訓(xùn)練進(jìn)行數(shù)據(jù)策管35
3.4.4 創(chuàng)造價(jià)值的其他注意事項(xiàng)35
3.5 本體論:封裝知識(shí)的手段36
3.6 人工智能成果的公平、信任和透明度38
3.7 可訪問(wèn)的、準(zhǔn)確的、經(jīng)過(guò)策管的和經(jīng)過(guò)組織的數(shù)據(jù)41
3.8 本章小結(jié)42
第4章 分析回顧:不只是個(gè)錘子44
4.1 曾經(jīng)的情況:回顧企業(yè)數(shù)據(jù)倉(cāng)庫(kù)44
4.2 傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的缺點(diǎn)49
4.3 范式轉(zhuǎn)變52
4.4 現(xiàn)代分析環(huán)境:數(shù)據(jù)湖53
4.4.1 兩者對(duì)比55
4.4.2 本地?cái)?shù)據(jù)56
4.4.3 差異屬性56
4.5 數(shù)據(jù)湖的要素58
4.6 新常態(tài):大數(shù)據(jù)即普通數(shù)據(jù)60
4.6.1 從單一數(shù)據(jù)模型的剛性中解放出來(lái)60
4.6.2 流數(shù)據(jù)61
4.6.3 適合任務(wù)的工具61
4.6.4 易訪問(wèn)性61
4.6.5 降低成本61
4.6.6 可擴(kuò)展性62
4.6.7 人工智能的數(shù)據(jù)管理和數(shù)據(jù)治理62
4.7 Schema-On-Read與Schema-On-Write63
4.8 本章小結(jié)65
第5章 分析前瞻:不是所有事物都是釘子67
5.1 組織的需求67
5.1.1 暫存區(qū)域69
5.1.2 原始區(qū)域70
5.1.3 發(fā)現(xiàn)與探索區(qū)域71
5.1.4 對(duì)齊區(qū)域71
5.1.5 協(xié)調(diào)區(qū)域76
5.1.6 策管區(qū)域77
5.2 數(shù)據(jù)拓?fù)?8
5.2.1 區(qū)域地圖80
5.2.2 數(shù)據(jù)管道81
5.2.3 數(shù)據(jù)地形81
5.3 擴(kuò)展、添加、移動(dòng)和刪除區(qū)域83
5.4 啟用區(qū)域84
5.4.1 攝入84
5.4.2 數(shù)據(jù)治理86
5.4.3 數(shù)據(jù)存儲(chǔ)和保留87
5.4.4 數(shù)據(jù)處理89
5.4.5 數(shù)據(jù)訪問(wèn)90
5.4.6 管理和監(jiān)控91
5.4.7 元數(shù)據(jù)91
5.5 本章小結(jié)92
第6章 人工智能階梯的運(yùn)營(yíng)準(zhǔn)則93
6.1 時(shí)光流逝94
6.2 創(chuàng)建98
6.2.1 穩(wěn)定性99
6.2.2 障礙99
6.2.3 復(fù)雜性99
6.3 執(zhí)行100
6.3.1 攝入101
6.3.2 可見(jiàn)性102
6.3.3 合規(guī)性102
6.4 運(yùn)行102
6.4.1 質(zhì)量103
6.4.2 依賴104
6.4.3 可復(fù)用性104
6.5 xOps三重奏:DevOps/MLOps、DataOps和AIOps105
6.5.1 DevOps/MLOps105
6.5.2 DataOps107
6.5.3 AIOps109
6.6 本章小結(jié)111
第7章 化運(yùn)用數(shù)據(jù):以價(jià)值為導(dǎo)向112
7.1 邁向價(jià)值鏈113
7.1.1 通過(guò)關(guān)聯(lián)鏈接116
7.1.2 啟用操作117
7.1.3 擴(kuò)大行動(dòng)手段118
7.2 策管119
7.3 數(shù)據(jù)治理121
7.4 集成數(shù)據(jù)管理123
7.4.1 載入125
7.4.2 組織125
7.4.3 編目126
7.4.4 元數(shù)據(jù)127
7.4.5 準(zhǔn)備128
7.4.6 預(yù)配129
7.4.7 多租戶129
7.5 本章小結(jié)132
第8章 通過(guò)統(tǒng)計(jì)分析評(píng)估數(shù)據(jù)并啟用有意義的訪問(wèn)133
8.1 派生價(jià)值:將數(shù)據(jù)當(dāng)作資產(chǎn)進(jìn)行管理133
8.2 數(shù)據(jù)可訪問(wèn)性:并非所有用戶都是平等的139
8.3 向數(shù)據(jù)提供自助服務(wù)140
8.4 訪問(wèn):添加控件的重要性141
8.5 為了數(shù)據(jù)治理,使用自底向上的方法對(duì)數(shù)據(jù)集進(jìn)行排序142
8.6 各行業(yè)如何使用數(shù)據(jù)和人工智能143
8.7 受益于統(tǒng)計(jì)數(shù)字144
8.8 本章小結(jié)151
第9章 長(zhǎng)期構(gòu)建152
9.1 改變習(xí)慣的需要:避免硬編碼152
9.1.1 過(guò)載153
9.1.2 鎖定154
9.1.3 所有權(quán)和分解156
9.1.4 避免變化的設(shè)計(jì)156
9.2 通過(guò)人工智能擴(kuò)展數(shù)據(jù)的價(jià)值157
9.3 混合持久化159
9.4 受益于數(shù)據(jù)素養(yǎng)163
9.4.1 理解主題165
9.4.2 技能集165
9.4.3 全部都是元數(shù)據(jù)167
9.4.4 正確的數(shù)據(jù),在正確的上下文
中,使用正確的接口168
9.5 本章小結(jié)170
第10章 終章:人工智能的信息架構(gòu)171
10.1 人工智能開(kāi)發(fā)工作172
10.2 基本要素:基于云的計(jì)算、數(shù)據(jù)和分析175
10.2.1 交集:計(jì)算容量和存儲(chǔ)容量180
10.2.2 分析強(qiáng)度181
10.2.3 跨要素的互操作性183
10.2.4 數(shù)據(jù)管道飛行路徑:飛行前、飛行中、飛行后186
10.2.5 數(shù)據(jù)水坑、數(shù)據(jù)池和數(shù)據(jù)