關(guān)于我們
書單推薦
新書推薦
|
Python和PySpark數(shù)據(jù)分析 Spark數(shù)據(jù)處理引擎是一個(gè)驚人的分析工廠:輸入原始數(shù)據(jù),輸出洞察。PySpark用基于Python的API封裝了Spark的核心引擎。它有助于簡化Spark陡峭的學(xué)習(xí)曲線,并使這個(gè)強(qiáng)大的工具可供任何在Python數(shù)據(jù)生態(tài)系統(tǒng)中工作的人使用。 《Python和PySpark數(shù)據(jù)分析》幫助你使用PySpark解決數(shù)據(jù)科學(xué)的日常挑戰(zhàn)。你將學(xué)習(xí)如何跨多臺(tái)機(jī)器擴(kuò)展處理能力,同時(shí)從任何來源(無論是Hadoop集群、云數(shù)據(jù)存儲(chǔ)還是本地?cái)?shù)據(jù)文件)獲取數(shù)據(jù)。一旦掌握了基礎(chǔ)知識(shí),就可以通過構(gòu)建機(jī)器學(xué)習(xí)管道,并配合Python、pandas和PySpark代碼,探索PySpark的全面多功能特性。 主要內(nèi)容 ● 組織PySpark代碼 ● 管理任何規(guī)模的數(shù)據(jù) ● 充滿信心地?cái)U(kuò)展你的數(shù)據(jù)項(xiàng)目 ● 解決常見的數(shù)據(jù)管道問題 ● 創(chuàng)建可靠的長時(shí)間運(yùn)行的任務(wù)
你還可能感興趣
我要評(píng)論
|