關(guān)于我們
書單推薦
新書推薦
|
基于云計(jì)算的數(shù)據(jù)科學(xué) 在本書中,你將學(xué)到: ·使用App Engine應(yīng)用實(shí)現(xiàn)自動(dòng)化定期數(shù)據(jù)攝取。 ·在Google Data Studio中創(chuàng)建并生成數(shù)據(jù)儀表板。 ·構(gòu)建實(shí)時(shí)數(shù)據(jù)分析管道,實(shí)現(xiàn)流式數(shù)據(jù)分析。 ·使用Google BigQuery實(shí)現(xiàn)可交互式數(shù)據(jù)探索。 ·在Cloud Dataproc群集上創(chuàng)建貝葉斯模型。 ·使用Spark構(gòu)建邏輯回歸機(jī)器學(xué)習(xí)模型。 ·使用Cloud Dataflow數(shù)據(jù)管道計(jì)算時(shí)間聚合特征。 ·使用TensorFlow構(gòu)建高性能預(yù)測(cè)模型。 ·將你的模型部署為微服務(wù),并且從批處理和實(shí)時(shí)數(shù)據(jù)管道中使用它。
前言 我目前在Google擔(dān)任的角色使我可以與很多領(lǐng)域的數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師共同 工作,將數(shù)據(jù)處理和分析流程遷移到公有云上。對(duì)于很多工作來(lái)說(shuō),與在本地部署 上所做的都一樣,方法也相同,區(qū)別只是將環(huán)境換成了租用的計(jì)算資源。盡管如此,目光長(zhǎng)遠(yuǎn)的用戶依然會(huì)重新思考他們的系統(tǒng)設(shè)計(jì),改變使用數(shù)據(jù)的方式,從而能夠更快地推動(dòng)創(chuàng)新。 早在 2011 年,《哈佛商業(yè)評(píng)論》(Harvard Business Review)的一篇文章就提到, 云計(jì)算最大的收益之一,是幫助組織和機(jī)構(gòu)以前所未有的方式共同工作,F(xiàn)在,這 一觀點(diǎn)已得到廣泛認(rèn)可。麻省理工學(xué)院2017年的一項(xiàng)調(diào)查發(fā)現(xiàn),通過(guò)向公有云轉(zhuǎn)移, 更多受訪者(45%)表示提高了敏捷性,而不是節(jié)約成本(34%)。 在本書中,我們將用示例向你展示這種全新、具有變革性,且更具協(xié)作性的數(shù)據(jù)科學(xué)實(shí)踐方法。通過(guò)本書,你將學(xué)習(xí)如何實(shí)現(xiàn)端到端的數(shù)據(jù)管道。首先,我們會(huì)以無(wú)服務(wù)器的方式攝取數(shù)據(jù),然后介紹數(shù)據(jù)探索、儀表板、關(guān)系型數(shù)據(jù)庫(kù)、流數(shù)據(jù),并最終展示如何訓(xùn)練并運(yùn)行一個(gè)機(jī)器學(xué)習(xí)模型。本書涵蓋了數(shù)據(jù)服務(wù)的所有方面,因?yàn)閷?duì)于數(shù)據(jù)工程師來(lái)說(shuō),他們不僅要參與服務(wù)設(shè)計(jì)、開發(fā)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型,還要掌握如何在大規(guī)模生產(chǎn)環(huán)境中實(shí)時(shí)部署和實(shí)施。 這本書適合誰(shuí) 如果你使用計(jì)算機(jī)處理數(shù)據(jù),那么這本書會(huì)適合你。本書針對(duì)的讀者可以是數(shù)據(jù)分析師、數(shù)據(jù)庫(kù)管理員、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家,也可以是系統(tǒng)程序員。即使你現(xiàn)在的工作范圍比較有限(也許只進(jìn)行數(shù)據(jù)分析或構(gòu)建模型,或者只是DevOps), 但只要你想進(jìn)一步提升自己,那么就應(yīng)該了解如何實(shí)現(xiàn)數(shù)據(jù)科學(xué)建模,以及如何在 生產(chǎn)系統(tǒng)下規(guī);瘜(shí)施。 Google 云計(jì)算平臺(tái)旨在讓你忽略基礎(chǔ)架構(gòu)的存在。無(wú)論是 Google BigQuery、Cloud Dataflow、Cloud Pub/Sub,還是 Cloud ML引擎,所有這些受歡迎的數(shù)據(jù)服務(wù)都是 無(wú)服務(wù)器且支持自動(dòng)縮放的。你在 BigQuery 上提交的查詢會(huì)在成千上萬(wàn)的節(jié)點(diǎn)上運(yùn) 行,然后返回處理結(jié)果,你也無(wú)需啟動(dòng)群集或安裝任何軟件。同樣,當(dāng)你在Cloud Dataflow 中提交數(shù)據(jù)管道,或是在 Cloud Machine Learning Engine 中提交機(jī)器學(xué)習(xí) 任務(wù)時(shí),你可以對(duì)數(shù)據(jù)進(jìn)行大規(guī)模處理,并實(shí)現(xiàn)大規(guī)模模型訓(xùn)練,且無(wú)需擔(dān)心集群 管理或故障恢復(fù)。Cloud Pub/Sub 是一項(xiàng)全球消息服務(wù),該服務(wù)可以在無(wú)需人工干預(yù) 的情況下自動(dòng)對(duì)訂閱者和發(fā)布者的吞吐量和數(shù)量進(jìn)行縮放。即使是開源解決方案(如 Apache Spark),Google云計(jì)算平臺(tái)也可以輕松滿足你的要求。你可以將數(shù)據(jù)保存 在 Google Cloud Storage上,而不是保存在 HDFS中,然后專門針對(duì)你的 Spark任 務(wù)啟動(dòng)一個(gè)群集即可。當(dāng)任務(wù)執(zhí)行完成,你可以毫無(wú)顧慮地刪除該群集。由于這些群集的基礎(chǔ)架構(gòu)專門針對(duì)特定任務(wù),因此你無(wú)需擔(dān)心硬件會(huì)過(guò)度配置,也不必?fù)?dān)心 性能不足等問(wèn)題。另外,在 Google 云計(jì)算平臺(tái)上,無(wú)論是存儲(chǔ)中還是傳輸中的數(shù)據(jù) 都會(huì)被加密,以確保數(shù)據(jù)安全。這種能夠讓數(shù)據(jù)科學(xué)家從基礎(chǔ)設(shè)施管理工作中得以解放的工作方式,無(wú)疑是令人難以置信的。 在 Google云計(jì)算平臺(tái)上執(zhí)行數(shù)據(jù)任務(wù)時(shí),我們之所以能忘記虛擬機(jī)和群集的原因 是云計(jì)算平臺(tái)上的網(wǎng)絡(luò)連接性能。Google云計(jì)算平臺(tái)數(shù)據(jù)中心內(nèi)的網(wǎng)絡(luò)單向帶寬為 1 PBps,因此可以持續(xù)、高速地讀取 Cloud Storage 中的數(shù)據(jù)。這就意味著你不需要 像傳統(tǒng)的 MapReduce作業(yè)那樣分割數(shù)據(jù)。相應(yīng)的,Google云計(jì)算平臺(tái)可以根據(jù)需 要將數(shù)據(jù)移動(dòng)到新的計(jì)算節(jié)點(diǎn),從而實(shí)現(xiàn)對(duì)計(jì)算任務(wù)的自動(dòng)伸縮。因此,在 Google 云計(jì)算平臺(tái)上開展數(shù)據(jù)科學(xué)工作時(shí),你可以從群集管理中解放出來(lái)。 這些自動(dòng)縮放、全面托管的云服務(wù)使大規(guī)模實(shí)施數(shù)據(jù)科學(xué)模型變得更加容易,這就是數(shù)據(jù)科學(xué)家不再需要將模型交給數(shù)據(jù)工程師的原因。相反,他們可以自己編寫數(shù)據(jù)科學(xué)任務(wù)、提交到云端,然后這些任務(wù)就能以自動(dòng)伸縮的方式自動(dòng)執(zhí)行。這種方式同時(shí)也讓數(shù)據(jù)科學(xué)軟件包變得越來(lái)越簡(jiǎn)單。因此,對(duì)于工程師來(lái)說(shuō),利用唾手可得的數(shù)據(jù),結(jié)合預(yù)先準(zhǔn)備好的模型來(lái)實(shí)現(xiàn)并運(yùn)行自己的原始(通常已經(jīng)是非常高質(zhì)量的)模型已經(jīng)變得非常容易。通過(guò)精心設(shè)計(jì)的軟件包和易于使用的API,你無(wú)需 了解數(shù)據(jù)科學(xué)算法的深?yuàn)W細(xì)節(jié),所有你需要知道的,只有每種算法的作用以及如何將這些算法連接起來(lái)解決實(shí)際問(wèn)題。通過(guò)對(duì)數(shù)據(jù)科學(xué)和數(shù)據(jù)工程進(jìn)行這種融合,你就可以將自己的翅膀伸展到目前角色之外了。 在閱讀本書時(shí),我強(qiáng)烈建議你嘗試使用示例代碼,而不是簡(jiǎn)單地閱讀文字內(nèi)容。本 書提供了用于構(gòu)建端到端管道的完整代碼,你可以在 GitHub(https://github.com/ GoogleCloudPlatform/data-science-on-gcp)上獲取。你可以創(chuàng)建一個(gè) Google云計(jì) 算平臺(tái)項(xiàng)目,在閱讀完每一章之后,嘗試參考示例代碼和每個(gè)文件夾下的說(shuō)明文件 README.md 注 1 來(lái)重復(fù)我們?cè)跁兴龅牟僮鳌?/p> 本書內(nèi)容約定 本書使用以下排版約定: 斜體(italic) 表示新術(shù)語(yǔ)、網(wǎng)址、電子郵件地址、文件名和文件擴(kuò)展名等。 等寬字體(constant width) 表示程序代碼以及段落內(nèi)用于引用的代碼內(nèi)容,如變量或函數(shù)名、數(shù)據(jù)庫(kù)、數(shù) 據(jù)類型、環(huán)境變量、聲明語(yǔ)句和關(guān)鍵字等。 等寬粗體(constant width bold) 表示應(yīng)由用戶逐字輸入的命令或其他文本。 等寬斜體(constant width italic) 表示應(yīng)由用戶提供的值或根據(jù)上下文確定的值而替換的文本。 使用代碼示例 更多補(bǔ)充資料(包括示例代碼、練習(xí)等)可以從這里下載https://github.com/ GoogleCloudPlatform/data-science-on-gcp。 本書的目的是幫助你完成工作任務(wù)。通常,對(duì)于書中提供的示例代碼,你可以直接在自己的程序和文檔中使用,無(wú)需聯(lián)系我們獲取授權(quán),除非你要再次分發(fā)大量示例代碼。舉例來(lái)說(shuō),如果你在編寫程序時(shí)使用了本書提供的一部分代碼,不用擔(dān)心授 權(quán)問(wèn)題;但如果你要以CD-ROM等方式銷售或分發(fā)O’Reilly系列圖書中的示例代碼, 則需要獲得我們的授權(quán);在解答問(wèn)題時(shí)如需引用本書提供的代碼,你不需要取得授權(quán);但如果你在自己的產(chǎn)品文檔中使用本書的任意代碼,則必須獲得授權(quán)。 我們不強(qiáng)制要求版權(quán)聲明,但我們感謝你能夠引用本書。引用格式一般包含書 名、作者、出版商和 ISBN,例如:“Data Science on the Google Cloud Platform by Valliappa Lakshmanan (O’Reilly). Copyright 2018 Google Inc.,978-1-491-97456-8”。 如果你認(rèn)為在使用示例代碼時(shí)超出了合理范圍或上述許可范圍,請(qǐng)隨時(shí)與我們聯(lián)系: permissions@oreilly.com。 聯(lián)系我們 任何有關(guān)本書的意見或疑問(wèn),請(qǐng)按照以下地址聯(lián)系出版社。 美國(guó): O’Reilly Media, Inc. 1005 Gravenstein Highway North Sebastopol, CA 95472 中國(guó): 北京市西城區(qū)西直門南大街 2 號(hào)成銘大廈 C 座 807 室(100035) 奧萊利技術(shù)咨詢(北京)有限公司 我們?yōu)楸緯峁┝藢iT的網(wǎng)頁(yè),用于發(fā)布內(nèi)容勘誤、范例和其他相關(guān)信息。你可以 通過(guò)這里訪問(wèn) http://bit.ly/datasci_GCP。 有關(guān)本書的任何評(píng)論或技術(shù)問(wèn)題,請(qǐng)發(fā)送電子郵件至 bookquestions@oreilly.com。 了解與本書相關(guān)的更多信息、課程、會(huì)議和新聞,請(qǐng)?jiān)L問(wèn)我們的網(wǎng)站http://www. oreilly.com。 我們的 Facebook:http://facebook.com/oreilly。 我們的 Twitter:http://twitter.com/oreillymedia。 我們的 YouTube: http://www.youtube.com/oreillymedia。 致謝 大約一年前,我在 Google 工作時(shí),我曾經(jīng)簡(jiǎn)單地使用公有云作為租賃基礎(chǔ)設(shè)施的一 種方式,配置自己的虛擬機(jī),并在虛擬機(jī)上安裝我要用的軟件,然后跟平時(shí)的工作 流程一樣運(yùn)行我的數(shù)據(jù)處理任務(wù)。幸好,我意識(shí)到Google的大數(shù)據(jù)技術(shù)棧與眾不同, 所以我開始學(xué)習(xí)如何充分利用 Google 云計(jì)算平臺(tái)提供的數(shù)據(jù)和機(jī)器學(xué)習(xí)工具。 對(duì)我來(lái)說(shuō),最好的學(xué)習(xí)方法是編寫代碼,我也的確在這么做。在一次 Python小組聚 會(huì)上,大家讓我講一講 Google 云計(jì)算平臺(tái),當(dāng)時(shí)我用自己的代碼做了展示和介紹。 后來(lái)的事實(shí)證明,在數(shù)據(jù)科學(xué)領(lǐng)域,在對(duì)比不同解決方法時(shí),對(duì)聽眾來(lái)說(shuō),使用代碼來(lái)展示如何構(gòu)建端到端系統(tǒng)是頗具教育意義的。后來(lái),我就把那次演講的主要內(nèi) 容寫成本書的出版計(jì)劃,并發(fā)給了 O’Reilly Media。 當(dāng)然,本書的內(nèi)容會(huì)比 60 分鐘的代碼演示深入許多。想象這樣的場(chǎng)景,有一天在你 上班時(shí)收到了一封來(lái)自公司新員工發(fā)來(lái)的電子郵件,他在你們公司工作的時(shí)間還不 到 6 個(gè)月,但不知何故,他決定將你負(fù)責(zé)構(gòu)建的一套復(fù)雜的系統(tǒng)平臺(tái)寫成一本書, 并尋求你的幫助。他和你既不在同一個(gè)團(tuán)隊(duì),幫助他也不屬于你的工作職責(zé),你們 甚至不在同一個(gè)辦公室工作。你會(huì)如何回應(yīng)?你愿意嗎? Google之所以能成為理想的工作場(chǎng)所,都是因?yàn)檫@里的同事。這也是 Google公司 文化的一個(gè)證明,這里的許多人,無(wú)論是工程師、技術(shù)主管、產(chǎn)品經(jīng)理、解決方案 架構(gòu)師、數(shù)據(jù)科學(xué)家、法律顧問(wèn),還是總監(jiān),他們都可以跨越不同團(tuán)隊(duì),愉快地將自己的專業(yè)知識(shí)分享給他們從未見過(guò)的人(實(shí)際上我也從未見過(guò)其中很多人)。這本書也因?yàn)樗麄兊呢暙I(xiàn)而變得更好,讓本書受益無(wú)窮,這些人包括(按字母順序排 列)William Brockman、Mike Dahlin、Tony Diloreto、Bob Evans、Roland Hess、 Brett Hesterberg、Dennis Huo、Chad Jennings、Puneith Kaul、Dinesh Kulkarni、 Manish Kurse、Reuven Lax、Jonathan Liu、James Malone、Dave Oleson、Mosha Pasumansky、Kevin Peterson、Olivia Puerta、Reza Rokni、Karn Seth、Sergei Sokolenko 及 Amy Unruh。同時(shí),我還要特別感謝 Mike Dahlin、Manish Kurse和 Olivia Puerta 對(duì)本書每章內(nèi)容的精心校對(duì)。在本書預(yù)覽時(shí),我收到了來(lái)自 Anthonios Partheniou和 David Schwantner的錯(cuò)誤報(bào)告,這些報(bào)告很有價(jià)值。不用多說(shuō),任何 遺留的錯(cuò)誤都由我負(fù)責(zé)。 在寫作本書時(shí),我曾一度陷入困境。有時(shí)候,遇到的是技術(shù)問(wèn)題,對(duì)此我要感謝 (按字母順序排列)Ahmet Altay、Eli Bixby、Ben Chambers、Slava Chernyak、 Marian Dvorsky、Robbie Haertel、Felipe Hoffa、Amir Hormati、Qi-ming (Bradley) Jiang、Kenneth Knowles、Nikhil Kothari 和 Chris Meyers 為我指引了前進(jìn)方向。而 在有些時(shí)候,我需要搞清楚公司的政策或需要與正確的團(tuán)隊(duì)建立聯(lián)系,獲取所需的文檔或統(tǒng)計(jì)數(shù)據(jù)。對(duì)此,我感謝那些在關(guān)鍵時(shí)刻為我提供幫助的同事,如果沒有 他們,本書會(huì)遜色很多(也是按字母順序排列):Louise Byrne、Apurva Desai、 Rochana Golani、Fausto Ibarra、Jason Martin、Neal Mueller、Philippe Poutonnet、 Brad Svee、Jordan Tigani、William Vampenebe和Miles Ward。謝謝大家的幫助和鼓勵(lì)。 同時(shí),我還要感謝 O’Reilly 團(tuán)隊(duì)的 Marie Beaugureau、Kristen Brown、Ben Lorica、 Tim McGovern、Rachel Roumeliotis 和 Heather Scherer 對(duì)我的信任,從而讓本書從 草稿到出版沒有遇到問(wèn)題。 最后,也是最重要的,我要感謝 Abirami、Sidharth和 Sarada的理解和耐心,當(dāng)我 專注于寫作和編碼時(shí),他們亦是如此。是你們,讓這一切變得有價(jià)值。 Valliappa Lakshmanan是Google云計(jì)算平臺(tái)專家服務(wù)部門的技術(shù)主管。他希望將機(jī)器學(xué)習(xí)普及化,讓任何人、從任何地方,在無(wú)需深入了解統(tǒng)計(jì)學(xué)、編程知識(shí),也無(wú)需購(gòu)買大量硬件的情況下使用Google云平臺(tái)提供的卓越架構(gòu)。
目錄 前言 1 第 1 章 用數(shù)據(jù)做出更好的決策 9 許多相似的決策 11 數(shù)據(jù)工程師的角色 12 云計(jì)算讓數(shù)據(jù)工程師成為可能 14 云計(jì)算使數(shù)據(jù)科學(xué)能力得到倍增 18 用案例研究揭示難解的真相 20 基于概率的決策 21 數(shù)據(jù)和工具 27 代碼入門 28 本章總結(jié) 30 第 2 章 將數(shù)據(jù)攝取到云端 31 航空公司準(zhǔn)點(diǎn)數(shù)據(jù) 31 可知性 33 訓(xùn)練 – 服務(wù)偏差 34 下載程序 35 數(shù)據(jù)集屬性36 為什么不就地存儲(chǔ)數(shù)據(jù)? 38 向上擴(kuò)展 40 水平擴(kuò)展 42 使用 Colossus 和 Jupiter 讓數(shù)據(jù)存放在原位 44 攝取數(shù)據(jù) 47 對(duì) Web 表單進(jìn)行反向工程 48 下載數(shù)據(jù)集51 數(shù)據(jù)探索和清理 53 將數(shù)據(jù)上傳到 Google 云端存儲(chǔ) 55 每月下載計(jì)劃 58 使用 Python 攝取數(shù)據(jù) 61 Flask Web App 68 在 App Engine 上運(yùn)行 69 確保 URL 的安全 70 計(jì)劃 Cron 任務(wù) 70 本章總結(jié) 73 代碼實(shí)驗(yàn) 74 第 3 章 創(chuàng)建引人注目的儀表板 76 使用數(shù)據(jù)儀表板對(duì)模型進(jìn)行解釋 77 為什么要先構(gòu)建數(shù)據(jù)儀表板? 79 準(zhǔn)確、忠實(shí)于數(shù)據(jù)且良好的設(shè)計(jì) 80 將數(shù)據(jù)加載到 Google Cloud SQL 83 創(chuàng)建 Google Cloud SQL 實(shí)例 83 與 Google 云計(jì)算平臺(tái)交互84 控制對(duì) MySQL 的訪問(wèn) 86 創(chuàng)建表 87 向表中填充數(shù)據(jù) 89 建立第一個(gè)模型 90 應(yīng)急表 91 閾值優(yōu)化 92 機(jī)器學(xué)習(xí) 93 構(gòu)建數(shù)據(jù)儀表板 94 Data Studio 入門 94 創(chuàng)建圖表 96 為最終用戶添加控件 98 用餅圖顯示所占比例 100 解釋應(yīng)急表105 本章總結(jié) 107 第 4 章 流數(shù)據(jù):發(fā)布和攝取 109 設(shè)計(jì)事件饋送 109 時(shí)間校正 112 Apache Beam/Cloud Dataflow 113 解析機(jī)場(chǎng)數(shù)據(jù) 115 添加時(shí)區(qū)信息 116 將時(shí)間轉(zhuǎn)換為 UTC 117 修正日期 120 創(chuàng)建事件 121 在云中運(yùn)行數(shù)據(jù)管道 122 將事件流發(fā)布到 Cloud Pub/Sub 126 獲取要發(fā)布的數(shù)據(jù)記錄 129 對(duì)數(shù)據(jù)記錄進(jìn)行分頁(yè) 130 構(gòu)建事件集合 130 發(fā)布事件集合 131 實(shí)時(shí)流式處理 132 Java Dataflow 中的流式數(shù)據(jù) 133 執(zhí)行流數(shù)據(jù)處理 138 使用 BigQuery 分析流式數(shù)據(jù) 140 實(shí)時(shí)數(shù)據(jù)儀表板 141 本章總結(jié) 144 第 5 章 交互式數(shù)據(jù)探索 145 探索性數(shù)據(jù)分析 146 將航班數(shù)據(jù)加載到 BigQuery 中 148 無(wú)服務(wù)器列式數(shù)據(jù)庫(kù)的優(yōu)點(diǎn) 148 訪問(wèn)控制 151 聯(lián)合查詢 156 攝取 CSV 文件 158 Cloud Datalab 中的探索性數(shù)據(jù)分析 164 Jupyter 筆記本 165 Cloud Datalab 166 在 Cloud Datalab 中安裝軟件包 169 適用于 Google 云計(jì)算平臺(tái)的 Jupyter 魔術(shù)命令 170 質(zhì)量控制 176 反常的數(shù)值176 清除異常數(shù)據(jù):大數(shù)據(jù)是不同的 178 不同出發(fā)延誤條件下的抵達(dá)延誤 182 概率決策閾值的應(yīng)用 184 經(jīng)驗(yàn)概率分布函數(shù) 185 答案 187 評(píng)估模型 188 隨機(jī)亂序分組 188 按日期分割189 訓(xùn)練和測(cè)試191 本章總結(jié) 196 第 6 章 Cloud Dataproc上的 貝葉斯分類器 197 MapReduce 和 Hadoop 生態(tài)系統(tǒng) 197 MapReduce 的工作原理 198 Apache Hadoop 200 Google Cloud Dataproc200 需要更高級(jí)的工具 202 關(guān)注任務(wù),而不是集群 204 初始化操作205 使用 Spark SQL 進(jìn)行量化 206 Cloud Dataproc 上的 Google Cloud Datalab 208 使用 BigQuery 進(jìn)行獨(dú)立檢查 209 Google Cloud Datalab 中的 Spark SQL 211 直方圖均衡化 215 動(dòng)態(tài)調(diào)整群集大小 219 使用 Pig 實(shí)現(xiàn)貝葉斯分類 222 在 Cloud Dataproc 上運(yùn)行 Pig 任務(wù) 224 將日期限制在訓(xùn)練數(shù)據(jù)集中 225 決策標(biāo)準(zhǔn) 226 對(duì)貝葉斯模型進(jìn)行評(píng)估 229 本章總結(jié) 231 第 7 章 機(jī)器學(xué)習(xí):Spark上的邏輯回歸 233 邏輯回歸 234 Spark 機(jī)器學(xué)習(xí)庫(kù) 237 開始使用 Spark 機(jī)器學(xué)習(xí) 238 Spark 邏輯回歸 239 創(chuàng)建訓(xùn)練數(shù)據(jù)集 241 處理邊界情況 243 創(chuàng)建訓(xùn)練示例 245 訓(xùn)練 246 使用模型進(jìn)行預(yù)測(cè) 249 對(duì)模型進(jìn)行評(píng)估 250 特征工程 253 實(shí)驗(yàn)框架 254 創(chuàng)建保留數(shù)據(jù)集 257 特性點(diǎn)的選擇 258 特征點(diǎn)的縮放和剪切 261 特征轉(zhuǎn)換 263 變量分類 267 可擴(kuò)展、可重復(fù)和實(shí)時(shí)性 269 本章總結(jié) 270 第 8 章 時(shí)間窗化的聚合特征 272 平均時(shí)間的需求 272 Java 中的 Dataflow 274 建立開發(fā)環(huán)境 275 使用 Beam 過(guò)濾數(shù)據(jù) 276 數(shù)據(jù)管道的控制選項(xiàng)和文本 I/O 280 在云端運(yùn)行281 解析為對(duì)象283 計(jì)算平均時(shí)間 286 分組及合并286 并行執(zhí)行和側(cè)面輸入 289 調(diào)試 291 BigQueryIO 292 對(duì)航班對(duì)象進(jìn)行轉(zhuǎn)換 294 批處理模式下的滑動(dòng)窗口計(jì)算 295 在云端運(yùn)行297 監(jiān)控、故障排除和性能調(diào)整 299 數(shù)據(jù)管道的故障排除 301 側(cè)面輸入的限制 302 重新設(shè)計(jì)數(shù)據(jù)管道 305 刪除重復(fù)項(xiàng)307 本章總結(jié) 310 第 9 章 使用TensorFlow的 機(jī)器學(xué)習(xí)分類器 312 使用更復(fù)雜的模型 313 將數(shù)據(jù)讀入 TensorFlow 317 建立實(shí)驗(yàn) 322 線性分類器323 訓(xùn)練和評(píng)估的輸入函數(shù) 325 服務(wù)輸入函數(shù) 326 創(chuàng)建實(shí)驗(yàn) 326 執(zhí)行訓(xùn)練 327 云中的分布式訓(xùn)練 329 對(duì) ML 模型進(jìn)行改進(jìn) 331 深度神經(jīng)網(wǎng)絡(luò)模型 332 嵌入 335 寬深模型 337 超參數(shù)調(diào)整341 部署模型 349 使用模型預(yù)測(cè) 350 對(duì)該模型的解釋 351 本章總結(jié) 353 第 10章 實(shí)時(shí)機(jī)器學(xué)習(xí) 355 調(diào)用預(yù)測(cè)服務(wù) 356 用于服務(wù)請(qǐng)求和響應(yīng)的 Java 類357 發(fā)送請(qǐng)求并解析響應(yīng) 359 預(yù)測(cè)服務(wù)的客戶端 360 將預(yù)測(cè)結(jié)果添加到航班信息 361 批量輸入和輸出 361 數(shù)據(jù)處理管道 363 識(shí)別無(wú)效的服務(wù)響應(yīng) 364 批量處理服務(wù)請(qǐng)求 365 流式數(shù)據(jù)管道 367 扁平化 PCollections 368 執(zhí)行流式數(shù)據(jù)管道 369 延遲的和無(wú)序的數(shù)據(jù)記錄 371 水印和觸發(fā)器 376 事務(wù),吞吐量和延遲 378 幾種可選的流式接收器 379 Cloud Bigtable 380 設(shè)計(jì)表 382 設(shè)計(jì)行鍵 383 流式傳輸至 Cloud Bigtable 384 查詢 Cloud Bigtable 中的數(shù)據(jù) 386 評(píng)估模型的性能 387 持續(xù)訓(xùn)練的必要性 388 評(píng)估管道 389 性能評(píng)估 391 邊際分布 391 檢查模型的行為 393 識(shí)別行為變化 396 本章總結(jié) 398 全書總結(jié) 398 附錄 有關(guān)機(jī)器學(xué)習(xí)數(shù)據(jù)集中敏感數(shù)據(jù)的注意事項(xiàng) 401
你還可能感興趣
我要評(píng)論
|