Python網(wǎng)絡(luò)爬蟲快速入門(微課版新世紀(jì)高職高專大數(shù)據(jù)技術(shù)專業(yè)系列規(guī)劃教材)
定 價(jià):48.8 元
- 作者:耿倩,白國(guó)政編
- 出版時(shí)間:2021/11/1
- ISBN:9787568534567
- 出 版 社:大連理工大學(xué)出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:223
- 紙張:
- 版次:1
- 開本:16開
本教材從初學(xué)者的角度出發(fā),由淺入深地講解了學(xué)習(xí)網(wǎng)絡(luò)爬蟲的基礎(chǔ)知識(shí),以及爬蟲采集技術(shù)、信息提取技術(shù)等的基本使用方法,以幫助讀者掌握爬蟲的相關(guān)技能,使其能夠獨(dú)立編寫自己的爬蟲項(xiàng)目。本教材在內(nèi)容安排上,充分考慮了知識(shí)體系的完整性和獨(dú)立性,涵蓋了Web頁(yè)面及相關(guān)技術(shù),爬取和解析網(wǎng)頁(yè)數(shù)據(jù)的相關(guān)技術(shù),以及數(shù)據(jù)存儲(chǔ)技術(shù)等內(nèi)容。
第1部分 基礎(chǔ)概念
第l章 爬蟲基礎(chǔ)和開發(fā)環(huán)境的配置
1.1 爬蟲產(chǎn)生的背景和概念
1.1.1 爬蟲產(chǎn)生的背景
1.1.2 爬蟲的概念
1.2 爬蟲的用途和分類
1.2.1 爬蟲的用途
1.2.2 爬蟲的分類
1.3 爬蟲實(shí)現(xiàn)原理
1.3.1 通用爬蟲工作原理
1.3.2 聚焦爬蟲工作原理
1.4 爬蟲爬取網(wǎng)頁(yè)信息的主要流程
1.5 防爬蟲應(yīng)對(duì)策略
1.6 爬蟲數(shù)據(jù)采集與挖掘的合規(guī)性
1.7 開發(fā)環(huán)境的配置
1.7.1 在Windows上安裝Python
1.7.2 PyCharm的安裝與使用
習(xí)題
第2章 網(wǎng)頁(yè)前端基礎(chǔ)
2.1 URL(統(tǒng)一資源定位符)
2.1.1 協(xié)議頭
2.1.2 服務(wù)器地址和端口
2.1.3 文件路徑
2.2 超文本
2.3 HTTP與HTTPS
2.3.1 HTTP
2 3 2 HTTPS
2.4 HTTP網(wǎng)絡(luò)請(qǐng)求原理
2.4.1 瀏覽器顯示網(wǎng)頁(yè)過程
2.4.2 客戶端HTTP請(qǐng)求格式
2.4.3 服務(wù)器HTTP相應(yīng)格式
2.5 Robots協(xié)議
2.5.1 Robots協(xié)議的內(nèi)涵
2.5.2 經(jīng)典robots.txt例子
2.6 網(wǎng)頁(yè)基礎(chǔ)
2.6.1 HTML語(yǔ)言規(guī)范
2.6.2 CSS簡(jiǎn)述
2.6.3 節(jié)點(diǎn)樹及節(jié)點(diǎn)間的關(guān)系
2.7 Cookie與Session
2.7.1 Cookie
2.7.2 Sessiml
習(xí) 題
案例1 爬蟲合法嗎
第2部分 網(wǎng)絡(luò)庫(kù)
第3章 網(wǎng)絡(luò)庫(kù)urllib
3.1 發(fā)送請(qǐng)求與獲得響應(yīng)
3.1.1 用urlopen函數(shù)發(fā)送HTTP GET請(qǐng)求
3.1.2 用urIopen函數(shù)發(fā)送HTTP POST請(qǐng)求
3.1.3 請(qǐng)求超時(shí)
3.1.4 設(shè)置HTTP請(qǐng)求頭
3.1.5 使用代理
3.1.6 讀取和設(shè)置Cookie
3.2 異常處理
3.3 解析鏈接
3.3.1 urlparse與urlunparse
3.3.2 urlsplit和urlunsplit
3.3.3 urljoin
3.3.4 urlencode
3.3.5 quote與unquote
3.3.6 parse_qs與parse_qsl
3.4 解析robots.txt文件
3.5 階段案例
習(xí)題
第4章 網(wǎng)絡(luò)庫(kù)requests
4.1 基本用法
4.1.1 requests的GET.請(qǐng)求
4.1.2 添加HTTP請(qǐng)求頭
4.1.3 抓取二進(jìn)制數(shù)據(jù)
4.1.4 POST請(qǐng)求
4.1.5 響應(yīng)數(shù)據(jù)
4.2 高級(jí)應(yīng)用
4.2.1 處理Cookie
4.2.2 使用同一會(huì)話(Session)
4.2.3 使用代理
4.2.4 超時(shí)
4.2.5 請(qǐng)求打包
4.3 階段案例
習(xí)題
案例2 大眾點(diǎn)評(píng)訴百度案
第3部分 解析庫(kù)
第5章 正則表達(dá)式
5.1 了解正則表達(dá)式
5.1.1 原子
5.1.2 元字符
5.2 re庫(kù)概述
5.2.1 match()方法和group()方法
5.2.2 search()方法
5.2.3 findall()方法和finditer()方法
5.2.4 sub()方法和subn()方法
5.2.5 split()方法
5.3 使用正則表達(dá)式抓取數(shù)據(jù)
5.3.1 抓取標(biāo)簽間的內(nèi)容
5.3.2 抓取標(biāo)簽中的參數(shù)
5.3.3 字符串處理及替換
5.4 階段案例
習(xí)題
第6章 XPath和lxml解析庫(kù)
6.1 lxml基礎(chǔ)
6.1.1 安裝Ixml
6.1.2 操作XML
6.1.3 操作HTML
6.1.4 操作字符串
6.2 XPath語(yǔ)法
6.3 lxml庫(kù)的基本使用
6.3.1 選取所有節(jié)點(diǎn)
6.3.2 選取子節(jié)點(diǎn)
6.3.3 屬性匹配與獲取
6.3.4 選取父節(jié)點(diǎn)
6.3.5 多屬性匹配
6.3.6 按序選擇節(jié)點(diǎn)
6.3.7 在Chrome中自動(dòng)獲得XPath代碼
6.4 階段案例
習(xí)題
第7章 解析庫(kù)BeautifulSoup4
7.1 BeautifulSoup4概述
7.1.1 BeautifulSoup4的安裝
7.1.2 選擇解析器
7.2 BeautifulSoup對(duì)象
7.2.1 使用BeautifuiSoup解析HTML代碼
7.2.2 節(jié)點(diǎn)選擇器
7.3 方法和CSS選擇器
7.3.1 方法選擇器
7.3.2 CSS選擇器
7.4 階段案例
習(xí)題
第8章 多線程爬蟲
8.1 進(jìn)程和線程
8.1.1 進(jìn)程
8.1.2 線程
8.2 Python與線程
8.2.1 使用單線程執(zhí)行程序
8.2.2 使用多線程執(zhí)行程序
8.2.3 為線程函數(shù)傳遞參數(shù)
8.2.4 線程和鎖
8.3 高級(jí)線程模塊(threading)
8.3.1 Thread類與線程函數(shù)
8:3.2 Thread類與線程對(duì)象
8.3.3 從Thread類繼承
8.3.4 線程同步
8.3.5 生產(chǎn)者一消費(fèi)者問題與queue模塊
8.4 多進(jìn)程
8.4.1 創(chuàng)建子進(jìn)程
8.4.2 將進(jìn)程定義為類
8.4.3 創(chuàng)建多個(gè)進(jìn)程
8.5 階段案例
習(xí)題
案例3 頭條前高管反噬被判刑
第4部分 數(shù)據(jù)存儲(chǔ)
第9章 文件存儲(chǔ)
9.1 操作文件
9.1.1 讀文件和寫文件
9.1.2 讀行和寫行
9.1.3 使用Filelnput對(duì)象讀取文件
9.2 讀寫XML文件
9.2.1 讀取與搜索XML文件
9.2.2 字典轉(zhuǎn)換為XML字符串
9.2.3 XML字符串轉(zhuǎn)換為字典
9.3 讀寫JSON文件
9.3.1 JSON字符串與字典互相轉(zhuǎn)換
9.3.2 將JSON字符串轉(zhuǎn)換為XML字符串
9.3.3 將JSON數(shù)據(jù)轉(zhuǎn)存到文件中
9.3.4 從文件中讀取JSON
9.4 讀寫CSV文件
9.4.1 寫入CSV文件
9.4.