人工智能超入門叢書--視覺感知:深度學(xué)習(xí)如何知圖辨物
定 價:69.8 元
叢書名:人工智能超入門叢書
- 作者:龔超、王冀、袁元 著
- 出版時間:2023/1/1
- ISBN:9787122422880
- 出 版 社:化學(xué)工業(yè)出版社
- 中圖法分類:TP391.41-49
- 頁碼:213
- 紙張:
- 版次:01
- 開本:32開
“人工智能超入門叢書”致力于面向人工智能各技術(shù)方向零基礎(chǔ)的讀者,內(nèi)容涉及數(shù)據(jù)思維、機(jī)器學(xué)習(xí)、視覺感知、情感分析、搜索算法、強(qiáng)化學(xué)習(xí)、知識圖譜、專家系統(tǒng)等方向,體系完整、內(nèi)容簡潔、文字通俗,綜合介紹人工智能相關(guān)知識,并輔以程序代碼解決問題,使得零基礎(chǔ)的讀者快速入門。
《視覺感知:深度學(xué)習(xí)如何知圖辨物》是“人工智能超入門叢書”中的分冊,本分冊主要介紹人工智能視覺領(lǐng)域的相關(guān)知識,以通俗易懂的文字風(fēng)格,解讀用卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法及機(jī)器學(xué)習(xí)算法對圖像進(jìn)行分類和識別的方法,介紹OpenCV在圖像處理中的基礎(chǔ)知識,為進(jìn)一步學(xué)習(xí)高階內(nèi)容奠定基礎(chǔ)。同時,本書配有關(guān)鍵代碼,讓讀者在學(xué)習(xí)過程中快速上手,提升解決問題的能力。
本書可以作為大學(xué)生以及想要走向計算機(jī)視覺相關(guān)工作崗位的技術(shù)人員的入門讀物,同時,對人工智能感興趣的人群也可以閱讀。
新一代人工智能的崛起深刻影響著國際競爭格局,人工智能已經(jīng)成為推動國家與人類社會發(fā)展的重大引擎。2017年,國務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,其中明確指出:支持開展形式多樣的人工智能科普活動,鼓勵廣大科技工作者投身人工智能知識的普及與推廣,全面提高全社會對人工智能的整體認(rèn)知和應(yīng)用水平。實施全民智能教育項目,在中小學(xué)階段設(shè)置人工智能相關(guān)課程,逐步推廣編程教育,鼓勵社會力量參與寓教于樂的編程教學(xué)軟件、游戲的開發(fā)和推廣。
為了貫徹落實《新一代人工智能發(fā)展規(guī)劃》,國家有關(guān)部委相繼頒布出臺了一系列政策。截至2022年2月,全國共有440所高校設(shè)置了人工智能本科專業(yè),387所普通高等學(xué)校高等職業(yè)教育(?疲┰O(shè)置了人工智能技術(shù)服務(wù)專業(yè),一些高校甚至已經(jīng)在積極探索人工智能跨學(xué)科的建設(shè)。在高中階段,人工智能初步已經(jīng)成為信息技術(shù)課程的選擇性必修內(nèi)容之一。在2022年實現(xiàn)從0到1突破的義務(wù)教育階段信息科技課程標(biāo)準(zhǔn)中,明確要求在7~9年級需要學(xué)習(xí)人工智能與智慧社會相關(guān)內(nèi)容,實際上,1~6年級階段的不少內(nèi)容也與人工智能關(guān)系密切,是學(xué)習(xí)人工智能的基礎(chǔ)。
人工智能是一門具有高度交叉屬性的學(xué)科,筆者認(rèn)為其交叉性至少體現(xiàn)在三個方面:行業(yè)交叉、學(xué)科交叉、學(xué)派交叉。在大數(shù)據(jù)、算法、算力三駕馬車的推動下,新一代人工智能已經(jīng)逐步開始賦能各個行業(yè),現(xiàn)在幾乎沒有哪一個行業(yè)不涉及人工智能有關(guān)元素。人工智能也在助力各學(xué)科的研究,近幾年,《自然》等刊物不斷刊發(fā)人工智能賦能學(xué)科的文章,如人工智能推動數(shù)學(xué)、化學(xué)、生物、考古、設(shè)計、音樂以及美術(shù)等。人工智能內(nèi)部的學(xué)派也在不斷交叉融合,像知名的AlphaGo,就是集三大主流學(xué)派優(yōu)勢制作,并且現(xiàn)在這種不同學(xué)派間取長補(bǔ)短的研究開展得如火如荼?傊,未來的學(xué)習(xí)、工作與生活中,人工智能賦能的身影將無處不在,因此掌握一定的人工智能知識與技能將大有裨益。
根據(jù)筆者長期從事人工智能教學(xué)、研究經(jīng)驗來看,一些人對人工智能還存在一定的誤區(qū)。比如將編程與人工智能直接畫上了等號,又或是認(rèn)為人工智能就只有深度學(xué)習(xí)等。實際上,人工智能的知識體系十分龐大,內(nèi)容涵蓋相當(dāng)廣泛,不但有邏輯推理、知識工程、搜索算法等相關(guān)內(nèi)容,還涉及機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)等算法模型。當(dāng)然,了解人工智能的起源與發(fā)展、人工智能的道德倫理對正確認(rèn)識人工智能和樹立正確的價值觀也是十分必要的。
通過對人工智能及其相關(guān)知識的系統(tǒng)學(xué)習(xí),可以培養(yǎng)數(shù)學(xué)思維( Mathematical Thinking)、邏輯思維( Reasoning Thinking)、計算思維(Computational Thinking)、藝術(shù)思維(Artistic Thinking)、創(chuàng)新思維( Innovative Thinking)與數(shù)據(jù)思維(Data Thinking),即MRCAID。然而遺憾的是,目前市場上既能較綜合介紹人工智能相關(guān)知識,又能輔以程序代碼解決問題,同時還能迅速入門的圖書并不多見。因此筆者策劃了本系列圖書,以期實現(xiàn)體系內(nèi)容較全、配合程序操練及上手簡單方便等特點。
本書主要介紹一些關(guān)于人工智能視覺領(lǐng)域相關(guān)的知識。除介紹像卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法解決圖像分類問題外,也給出了如何利用傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行圖像識別的知識與技能。本書也介紹了OpenCV在圖像處理中的一些基礎(chǔ)知識,為進(jìn)一步學(xué)習(xí)高階的內(nèi)容奠定了基礎(chǔ)。第1章介紹了計算機(jī)視覺的基礎(chǔ)知識與發(fā)展脈絡(luò),第2章介紹如何利用支持向量機(jī)解決分類問題以及其在手寫數(shù)字圖像識別中的運(yùn)用,第3章介紹神經(jīng)網(wǎng)絡(luò)實現(xiàn)對MNIST手寫數(shù)字?jǐn)?shù)據(jù)集的分類,第4章和第5章介紹卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)知識以及其實現(xiàn)圖像分類的案例,第6章主要介紹OpenCV的基礎(chǔ)知識,第7章在第6章的基礎(chǔ)上,介紹了目標(biāo)跟蹤、目標(biāo)檢測、圖像分割以及人臉識別等相關(guān)知識。本書的附錄部分介紹了關(guān)于優(yōu)化問題的基礎(chǔ)知識以及給出了一步步實現(xiàn)神經(jīng)網(wǎng)絡(luò)的代碼。
本書的出版要感謝曾提供熱情指導(dǎo)與幫助的院士、教授、中小學(xué)教師等專家學(xué)者,也要感謝與筆者一起并肩參與寫作的其他作者,同時還要感謝化學(xué)工業(yè)出版社編輯老師們的熱情支持與一絲不茍的工作態(tài)度。
在本書的出版過程中,未來基因(北京)人工智能研究院、騰訊教育、阿里云、科大訊飛等機(jī)構(gòu)給予了大力支持,在此一并表示感謝。同時,本書受中央高;究蒲袠I(yè)務(wù)費專項資金資助,在此表示感謝。
由于筆者水平有限,書中內(nèi)容不可避免會存在疏漏,歡迎廣大讀者批評指正并提出寶貴的意見。
龔超
2022年9月于清華大學(xué)
第1章 計算機(jī)視覺綜述 001
1.1 生物的視界 002
1.1.1 三只眼 002
1.1.2 眼見為實? 005
1.2 人工智能的視界 009
1.2.1 數(shù)字圖像類型 009
1.2.2 從圖像到矩陣 011
1.2.3 視不同,理相通 014
1.3 計算機(jī)視覺發(fā)展與應(yīng)用 018
1.3.1 計算機(jī)視覺發(fā)展史 018
1.3.2 大規(guī)模視覺識別挑戰(zhàn)賽 021
1.3.3 計算機(jī)視覺應(yīng)用 022
第2章 機(jī)器學(xué)習(xí)與圖像識別 024
2.1 從感知機(jī)到支持向量機(jī) 025
2.1.1 感知機(jī)的線性可分 025
2.1.2 支持向量機(jī) 027
2.2 支持向量機(jī)的超強(qiáng)“核”心 030
2.3 支持向量機(jī)的實踐 034
2.3.1 鳶尾花的辨識 034
2.3.2 手寫數(shù)字圖像識別 040
第3章 神經(jīng)網(wǎng)絡(luò)與圖像分類 043
3.1 從神經(jīng)元到神經(jīng)網(wǎng)絡(luò) 044
3.1.1 神經(jīng)元與感知機(jī) 044
3.1.2 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 046
3.1.3 前向與反向傳播 047
3.2 激活函數(shù)與損失函數(shù) 052
3.2.1 非線性轉(zhuǎn)換的激活函數(shù) 052
3.2.2 衡量優(yōu)劣的損失函數(shù) 056
3.2.3 激活函數(shù)與損失函數(shù)的組合 057
3.3 擬合與誤差 058
3.3.1 過擬合與欠擬合 058
3.3.2 偏差與方差的權(quán)衡 060
3.4 利用神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字圖像 064
3.4.1 MNIST手寫數(shù)字圖像數(shù)據(jù)集 064
3.4.2 Scikit-learn庫神經(jīng)網(wǎng)絡(luò)與手寫數(shù)字圖像 066
3.4.3 NumPy庫神經(jīng)網(wǎng)絡(luò)與手寫數(shù)據(jù)集 069
第4章 卷積入門 073
4.1 圖像噪聲 074
4.2 卷積核與去噪 077
4.3 邊緣檢測 085
4.4 紋理分析 089
第5章 卷積神經(jīng)網(wǎng)絡(luò)及經(jīng)典詳解 092
5.1 卷積神經(jīng)網(wǎng)絡(luò)的提出 093
5.1.1 從全局到局部 093
5.1.2 感受野 096
5.2 卷積層、池化層與全連接層 097
5.2.1 卷積與卷積層 098
5.2.2 池化與池化層 100
5.2.3 全連接層 101
5.3 卷積神經(jīng)網(wǎng)絡(luò)的圖像分類 103
5.3.1 CIFAR-10圖像集介紹 103
5.3.2 簡單實現(xiàn)圖像分類 104
5.4 ImageNet與經(jīng)典網(wǎng)絡(luò)介紹 113
5.4.1 ImageNet數(shù)據(jù)集 113
5.4.2 經(jīng)典卷積神經(jīng)網(wǎng)絡(luò) 114
第6章 OpenCV基礎(chǔ) 118
6.1 圖像處理入門 120
6.1.1 讀取、顯示與保存圖像 121
6.1.2 分割與合并顏色通道 126
6.1.3 轉(zhuǎn)換顏色空間 128
6.1.4 讀取、顯示與保存視頻 131
6.2 圖像基本變換 135
6.2.1 操作單個像素 135
6.2.2 裁剪圖像 138
6.2.3 調(diào)整圖像大小 140
6.2.4 翻轉(zhuǎn)圖像 144
6.3 為圖像添加注釋 146
6.3.1 為圖像添加線段 147
6.3.2 為圖像添加圓 148
6.3.3 為圖像添加矩形 149
6.3.4 為圖像添加文本 150
6.4 圖像增強(qiáng) 151
6.4.1 調(diào)整圖像亮度 151
6.4.2 調(diào)整圖像對比度 153
第7章 OpenCV實戰(zhàn)應(yīng)用 157
7.1 目標(biāo)跟蹤 158
7.1.1 目標(biāo)跟蹤算法 159
7.1.2 創(chuàng)建跟蹤器實例 160
7.2 目標(biāo)檢測 169
7.2.1 SSD目標(biāo)檢測算法 169
7.2.2 目標(biāo)檢測實例 170
7.3 圖像分割 177
7.3.1 圖像分割介紹 178
7.3.2 通過Mask R-CNN進(jìn)行圖像分割 179
7.4 人臉識別 181
7.4.1 人臉檢測實例 182
7.4.2 眼睛檢測實例 187
附錄 189
附錄一 優(yōu)化基礎(chǔ) 190
附錄二 神經(jīng)網(wǎng)絡(luò)代碼 198
附錄三 騰訊扣叮Python實驗室:Jupyter Lab使用說明 205