全書共11章,以下是各章的主要內(nèi)容:
第1章:主要講解Python編程環(huán)境的搭建方法及Python語言的基礎(chǔ)語法知識等內(nèi)容。
第2章:主要講解AI工具的基本使用方法,以及如何在爬蟲編程中利用AI工具解決技術(shù)難題和提高開發(fā)效率。
第3章:主要講解如何對網(wǎng)頁進(jìn)行初步分析,包括查看網(wǎng)頁源代碼、剖析網(wǎng)頁的結(jié)構(gòu)、判斷網(wǎng)頁的類型等,為獲取網(wǎng)頁源代碼并提取數(shù)據(jù)奠定基礎(chǔ)。
第4、5章:分別講解靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁的爬取,主要內(nèi)容包括如何使用Requests模塊和Selenium模塊獲取網(wǎng)頁源代碼,如何使用正則表達(dá)式和BeautifulSoup模塊從網(wǎng)頁源代碼中提取所需數(shù)據(jù)。
第6章:主要講解如何使用pandas等模塊對獲取的數(shù)據(jù)進(jìn)行清洗、處理和分析,以提高數(shù)據(jù)的質(zhì)量,并從數(shù)據(jù)中提取有價值的信息。
第7章:進(jìn)一步探索Python網(wǎng)絡(luò)爬蟲的進(jìn)階技術(shù),例如,用pandas模塊爬取網(wǎng)頁表格數(shù)據(jù)、用數(shù)據(jù)接口爬取數(shù)據(jù)、開發(fā)帶圖形用戶界面的爬蟲程序等。
第8~11章:通過一系列實際應(yīng)用場景來實踐并強(qiáng)化之前所學(xué)的知識。這些場景涵蓋了財經(jīng)、社交媒體、電商等多個領(lǐng)域的數(shù)據(jù)爬取,以及媒體文件的下載。讀者將深入體會如何靈活運用爬蟲技術(shù)解決實際問題,在遇到困難時如何借助AI工具見招拆招,從而踏上編程能力的持續(xù)自我提升之路。
◆前言 ◆
網(wǎng)絡(luò)爬蟲是一種高效的數(shù)據(jù)采集工具,然而對于許多初學(xué)者而言,這項技術(shù)似乎遙不可及,需要具備高深的編程技能才能掌握。本書旨在探討如何通過簡潔易懂的Python編程語言與先進(jìn)AI工具的強(qiáng)強(qiáng)聯(lián)手,降低爬蟲技術(shù)的學(xué)習(xí)門檻,讓學(xué)習(xí)過程變得輕松愉快。
◎內(nèi)容結(jié)構(gòu)
全書共11章,以下是各章的主要內(nèi)容:
第1章:主要講解Python編程環(huán)境的搭建方法及Python語言的基礎(chǔ)語法知識等內(nèi)容。
第2章:主要講解AI工具的基本使用方法,以及如何在爬蟲編程中利用AI工具解決技術(shù)難題和提高開發(fā)效率。
第3章:主要講解如何對網(wǎng)頁進(jìn)行初步分析,包括查看網(wǎng)頁源代碼、剖析網(wǎng)頁的結(jié)構(gòu)、判斷網(wǎng)頁的類型等,為獲取網(wǎng)頁源代碼并提取數(shù)據(jù)奠定基礎(chǔ)。
第4、5章:分別講解靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁的爬取,主要內(nèi)容包括如何使用Requests模塊和Selenium模塊獲取網(wǎng)頁源代碼,如何使用正則表達(dá)式和BeautifulSoup模塊從網(wǎng)頁源代碼中提取所需數(shù)據(jù)。
第6章:主要講解如何使用pandas等模塊對獲取的數(shù)據(jù)進(jìn)行清洗、處理和分析,以提高數(shù)據(jù)的質(zhì)量,并從數(shù)據(jù)中提取有價值的信息。
第7章:進(jìn)一步探索Python網(wǎng)絡(luò)爬蟲的進(jìn)階技術(shù),例如,用pandas模塊爬取網(wǎng)頁表格數(shù)據(jù)、用數(shù)據(jù)接口爬取數(shù)據(jù)、開發(fā)帶圖形用戶界面的爬蟲程序等。
第8~11章:通過一系列實際應(yīng)用場景來實踐并強(qiáng)化之前所學(xué)的知識。這些場景涵蓋了財經(jīng)、社交媒體、電商等多個領(lǐng)域的數(shù)據(jù)爬取,以及媒體文件的下載。讀者將深入體會如何靈活運用爬蟲技術(shù)解決實際問題,在遇到困難時如何借助AI工具見招拆招,從而踏上編程能力的持續(xù)自我提升之路。
◎讀者對象
本書適合需要在網(wǎng)絡(luò)數(shù)據(jù)的采集、處理與分析方面提高效率的職場人士和辦公人員閱讀,也可供Python編程愛好者參考。
由于AI技術(shù)和編程技術(shù)的更新和升級速度很快,加之編者水平有限,本書難免有不足之處,懇請廣大讀者批評指正。
第1章 Python入門
1.1安裝Python編程環(huán)境
1.2管理第三方模塊
1.3在代碼中導(dǎo)入模塊
1.4測試Python編程環(huán)境
1.5變量的命名和賦值
1.6Python的基本數(shù)據(jù)類型:數(shù)字、字符串
1.7Python的基本數(shù)據(jù)類型:列表、字典
1.8Python的運算符
1.9Python的控制語句:if語句
1.10Python的控制語句:for語句
1.11Python的控制語句:while語句
1.12Python的控制語句:try/except語句
1.13Python控制語句的嵌套
1.14Python的自定義函數(shù)
第2章 AI輔助編程基礎(chǔ)
2.1初識AI工具
2.2與AI工具對話的基本操作
2.3設(shè)計提示詞的原則和技巧
2.4利用AI工具解讀和修改代碼
2.5利用AI工具分析報錯信息
2.6利用AI工具閱讀技術(shù)文檔
第3章 網(wǎng)頁的初步分析
3.1查看網(wǎng)頁源代碼:右鍵快捷菜單
3.2查看網(wǎng)頁源代碼:開發(fā)者工具
3.3認(rèn)識常見的HTML標(biāo)簽
3.4剖析網(wǎng)頁的結(jié)構(gòu)
3.5判斷網(wǎng)頁的類型
第4章 靜態(tài)網(wǎng)頁的爬取
4.1用Requests模塊獲取靜態(tài)網(wǎng)頁的源代碼
4.2正則表達(dá)式的基礎(chǔ)知識
4.3分析網(wǎng)頁源代碼并編寫正則表達(dá)式
4.4用正則表達(dá)式從網(wǎng)頁源代碼中提取數(shù)據(jù)
4.5CSS選擇器的基礎(chǔ)知識
4.6分析網(wǎng)頁源代碼并編寫CSS選擇器
4.7用BeautifulSoup模塊從網(wǎng)頁源代碼中提取數(shù)據(jù)
4.8用Requests模塊下載文件
4.9靜態(tài)網(wǎng)頁爬取實戰(zhàn)1:單頁爬取
4.10靜態(tài)網(wǎng)頁爬取實戰(zhàn)2:多頁爬取
第5章 動態(tài)網(wǎng)頁的爬取
5.1搭建Selenium模塊的運行環(huán)境
5.2用Selenium模塊獲取網(wǎng)頁源代碼
5.3操控瀏覽器:用XPath定位網(wǎng)頁元素
5.4操控瀏覽器:用CSS選擇器定位網(wǎng)頁元素
5.5操控瀏覽器:自動向下滾動頁面
5.6操控瀏覽器:自動下載文件
5.7操控瀏覽器:切換標(biāo)簽頁
5.8操控瀏覽器:切換至
5.9操控瀏覽器:啟用無界面模式
5.10用Requests模塊獲取動態(tài)加載的數(shù)據(jù)
5.11使用Cookie模擬登錄
5.12動態(tài)網(wǎng)頁爬取實戰(zhàn)1:單頁爬取
5.13動態(tài)網(wǎng)頁爬取實戰(zhàn)2:多頁爬取
第6章 爬蟲數(shù)據(jù)的處理和分析
6.1pandas模塊的基本數(shù)據(jù)結(jié)構(gòu):Series
6.2pandas模塊的基本數(shù)據(jù)結(jié)構(gòu):DataFrame
6.3用pandas模塊讀寫數(shù)據(jù)文件
6.4DataFrame的常用操作:選取數(shù)據(jù)
6.5DataFrame的常用操作:數(shù)據(jù)的運算、排序和篩選
6.6爬蟲數(shù)據(jù)清洗:處理缺失值和重復(fù)值
6.7爬蟲數(shù)據(jù)清洗:刪除無用的字符
6.8爬蟲數(shù)據(jù)清洗:轉(zhuǎn)換數(shù)據(jù)類型
6.9爬蟲數(shù)據(jù)清洗:補(bǔ)全數(shù)據(jù)
6.10爬蟲數(shù)據(jù)分析與可視化
第7章 Python爬蟲技術(shù)進(jìn)階
7.1用pandas模塊爬取網(wǎng)頁表格數(shù)據(jù)
7.2用數(shù)據(jù)接口爬取數(shù)據(jù)
7.3開發(fā)帶圖形用戶界面的爬蟲程序
7.4爬蟲程序的打包
7.5爬蟲提速:優(yōu)化Selenium模塊的等待方式
第8章 綜合實戰(zhàn):財經(jīng)數(shù)據(jù)爬取
8.1爬取證券日報網(wǎng)的財經(jīng)新聞
8.2爬取搜狐的財經(jīng)要聞
8.3爬取東方財富網(wǎng)的財務(wù)報表
8.4爬取新浪財經(jīng)的上市公司盈利能力數(shù)據(jù)
8.5批量下載上海證券交易所的問詢函
8.6批量下載東方財富網(wǎng)的研報
第9章 綜合實戰(zhàn):社交媒體數(shù)據(jù)爬取
9.1爬取百度熱搜榜
9.2爬取新浪微博熱搜榜
9.3爬取好看視頻的數(shù)據(jù)
第10章 綜合實戰(zhàn):電商數(shù)據(jù)爬取
10.1爬取當(dāng)當(dāng)網(wǎng)的圖書暢銷榜數(shù)據(jù)
10.2爬取京東的商品評價
第11章 綜合實戰(zhàn):媒體文件下載
11.1批量下載圖片
11.2批量下載視頻