《視頻大數(shù)據(jù)智慧計算方法》以空間為緯度來研究視頻大數(shù)據(jù)中圖像的識別、重建,以時間為經(jīng)度來研究視頻大數(shù)據(jù)中幀間的切分、轉(zhuǎn)碼,以時空為經(jīng)緯度來研究視頻大數(shù)據(jù)內(nèi)容的監(jiān)控、審查、分類!兑曨l大數(shù)據(jù)智慧計算方法》的原創(chuàng)性在于:提出并研究給出了視頻大數(shù)據(jù)智慧計算方法,具體又提出并研究給出了視頻大數(shù)據(jù)空間智慧計算方法、視頻大數(shù)據(jù)時間智慧計算方法、視頻大數(shù)據(jù)時空編解碼智慧計算方法、視頻大數(shù)據(jù)時空監(jiān)控智慧計算方法、視頻大數(shù)據(jù)時空審查智慧計算方法、視頻大數(shù)據(jù)時空分類智慧計算方法。
更多科學(xué)出版社服務(wù),請掃碼獲取。
《視頻大數(shù)據(jù)智慧計算方法》:
第1章 視頻大數(shù)據(jù)智慧計算緒論
1.1 視頻大數(shù)據(jù)的特點
視頻大數(shù)據(jù)有三大特點:數(shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、全數(shù)據(jù),如圖1.1所示。
圖1.1視頻大數(shù)據(jù)的特點
視頻大數(shù)據(jù)的第一個特點是數(shù)據(jù)量大,而且視頻大數(shù)據(jù)的數(shù)據(jù)量增長速度非常快。每天有無數(shù)的人在向優(yōu)酷等在線視頻網(wǎng)站上傳各種視頻,每天都有無數(shù)的監(jiān)控器、攝像頭在錄制各種各樣的實時視頻,每天電視臺、電影院都在播放著不斷更新的視頻 。我們的世界是可視的、動態(tài)的,整個世界最原始的狀態(tài)就是一個連續(xù)不斷的、將會延續(xù)無數(shù)億年的視頻。
隨著視頻錄制設(shè)備的普及,特別是智能手機(jī)也具備了錄制視頻的能力,現(xiàn)在已經(jīng)進(jìn)入視頻大數(shù)據(jù)的時代。人們喜歡錄制視頻來記錄生活中的點點滴滴,學(xué)校喜歡用視頻來記錄教師上課的實況,政府喜歡用視頻來監(jiān)控社會的動態(tài)。一個文本文件或圖像文件或聲音文件,其數(shù)據(jù)量都一般在M級,但一個視頻文件數(shù)據(jù)量一般都在G級,而有的高清視頻能達(dá)到T級。每個視頻都含有非常豐富的信息,都要占用大量的存儲空間,而視頻的數(shù)量又非常龐大,這就使得視頻成為各種格式的數(shù)據(jù)中數(shù)據(jù)量最為突出的大數(shù)據(jù)。
同時,隨著互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的發(fā)展,越來越多的視頻被上傳到網(wǎng)上進(jìn)行分享、轉(zhuǎn)碼、加工、重組,從而使得從無數(shù)的原始視頻中,又衍生出更多數(shù)據(jù)量更大的目標(biāo)視頻,這又進(jìn)一步增加了視頻大數(shù)據(jù)的數(shù)據(jù)量。
視頻大數(shù)據(jù)的第二個特點是結(jié)構(gòu)復(fù)雜。視頻數(shù)據(jù)相對于文本、圖像、聲音這些單一的數(shù)據(jù)類型而言,是結(jié)構(gòu)最為復(fù)雜的一種數(shù)據(jù)。視頻大數(shù)據(jù)是一種集圖像、聲音、文字于一體的大數(shù)據(jù),也是一種集時間維、空間維、本性維于一體的大數(shù)據(jù)。正是因為其組成成分的復(fù)雜性,以及不同維之間的關(guān)聯(lián)性,使得其大數(shù)據(jù)的特性更為突出。正是由于視頻結(jié)構(gòu)的復(fù)雜性,所以以不同的方式來組織視頻數(shù)據(jù)就形成了視頻的不同編碼格式和封裝格式。視頻的編碼格式和封裝格式之多遠(yuǎn)遠(yuǎn)超過了文本、圖像、聲音這些類型的文件數(shù)據(jù),這也從一個側(cè)面反映了視頻結(jié)構(gòu)的復(fù)雜性。不但視頻內(nèi)部的結(jié)構(gòu)復(fù)雜,由于視頻轉(zhuǎn)碼、視頻加工、視頻重組、視頻挖掘等技術(shù)的應(yīng)用,使得不同視頻數(shù)據(jù)之間也存在著千絲萬縷的聯(lián)系,形成了視頻數(shù)據(jù)之間結(jié)構(gòu)的復(fù)雜性。
視頻大數(shù)據(jù)的第三個特點是全數(shù)據(jù)。視頻所見即所得,是對現(xiàn)實世界的真實記錄和復(fù)制,這一點不同于文本數(shù)據(jù)。因為文本數(shù)據(jù)是人類或人類程序?qū)陀^世界的記錄,其中有人類對客觀世界的抽象及取舍。全數(shù)據(jù)在數(shù)據(jù)的維度上沒有任何損失,所以視頻大數(shù)據(jù)的挖掘價值更大。視頻大數(shù)據(jù)相對于文本等類型的大數(shù)據(jù)而言,其全數(shù)據(jù)性更為明顯。當(dāng)然,這也是相對的,因為視頻的分辨率是有限的,而且大部分視頻不是三維的、更不是全息的,因此視頻也無法完全地復(fù)制現(xiàn)實,所以說視頻大數(shù)據(jù)只是相對的全數(shù)據(jù),但隨著視頻技術(shù)、存儲技術(shù)的發(fā)展,視頻的分辨率會越來越高,而且會朝著三維、全息的方向發(fā)展,所以視頻大數(shù)據(jù)的全數(shù)據(jù)性會越來越高。
1.2視頻大數(shù)據(jù)對智慧計算的需求
大數(shù)據(jù)的價值在于其中所蘊(yùn)含的知識,而大數(shù)據(jù)中的知識只有依靠智慧計算才能充分地發(fā)現(xiàn)和利用。因為大數(shù)據(jù)不同于傳統(tǒng)的數(shù)據(jù),大數(shù)據(jù)是未經(jīng)采樣和加工的全數(shù)據(jù),因此其數(shù)據(jù)質(zhì)量遠(yuǎn)遠(yuǎn)低于傳統(tǒng)數(shù)據(jù),而數(shù)據(jù)復(fù)雜性遠(yuǎn)遠(yuǎn)高于傳統(tǒng)數(shù)據(jù),這就對處理數(shù)據(jù)的計算方法提出了更高的要求,因此需要一種針對大數(shù)據(jù)的智慧計算方法。
特別是視頻大數(shù)據(jù)對智慧計算有著更高的要求,因為視頻大數(shù)據(jù)是最為難以處理的大數(shù)據(jù)類型之一。傳統(tǒng)處理大數(shù)據(jù)的框架如hadoop,比較擅長于處理文本大數(shù)據(jù),但在處理視頻大數(shù)據(jù)時就有些力不從心,因為視頻大數(shù)據(jù)的數(shù)據(jù)內(nèi)部、數(shù)據(jù)之間的關(guān)系非常復(fù)雜,同時其數(shù)據(jù)量也不是文本大數(shù)據(jù)可以同日而語的。所以急需研究專門針對視頻大數(shù)據(jù)的更為智慧的計算方法,來針對視頻大數(shù)據(jù)的結(jié)構(gòu)復(fù)雜性、海量性、全數(shù)據(jù)性進(jìn)行高效的處理,得到預(yù)期的結(jié)果和效果。
從應(yīng)用的角度來看,視頻大數(shù)據(jù)對智慧計算的需求包括七大需求:視頻大數(shù)據(jù)識別的需求、視頻大數(shù)據(jù)重建的需求、視頻大數(shù)據(jù)重組的需求、視頻大數(shù)據(jù)轉(zhuǎn)碼的需求、視頻大數(shù)據(jù)監(jiān)控的需求、視頻大數(shù)據(jù)審查的需求和視頻大數(shù)據(jù)處理的需求,如圖1.2所示。
圖1.2視頻大數(shù)據(jù)對智慧計算的需求視頻大數(shù)據(jù)對智慧計算的需求,第一體現(xiàn)在對視頻大數(shù)據(jù)識別的需求。因為視頻如果不被識別,則毫無意義,但視頻識別對計算機(jī)來說不是一件很容易的事情,雖然我們?nèi)祟惷刻於荚诳措娪、看電視,識別視頻對于我們?nèi)祟悂碚f,非常容易。因此,在視頻識別這一方面,計算機(jī)當(dāng)前發(fā)展水平還遠(yuǎn)遠(yuǎn)不如人腦。但視頻大數(shù)據(jù)的海量數(shù)據(jù)性,使得無法完全由人工來進(jìn)行識別,所以急需一種更為智慧的計算來對視頻進(jìn)行自動高效的識別。
視頻大數(shù)據(jù)對智慧計算的需求,第二體現(xiàn)在對視頻大數(shù)據(jù)重建的需求。視頻重建是基于視頻識別所得到知識所進(jìn)行的創(chuàng)造性活動。視頻本身是源于現(xiàn)實,而視頻重建的結(jié)果是對現(xiàn)實的重塑。因此,視頻重建是對視頻的有效利用。但視頻重建比視頻識別對計算機(jī)而言更為困難,因為視頻重建是一種創(chuàng)造性的活動,而計算機(jī)最不擅長做的事情就是創(chuàng)造性的活動。所以當(dāng)前視頻重建一般都是人工來做的。例如,根據(jù)動畫形象進(jìn)行三維建模,都是由3D模型設(shè)計師進(jìn)行手工設(shè)計。但是當(dāng)面臨視頻大數(shù)據(jù)時,如果有大量的視頻需要被重建,則無法完全由人工來進(jìn)行重建,所以急需一種更為智慧的計算來對視頻進(jìn)行自動高效的重建。
視頻大數(shù)據(jù)對智慧計算的需求,第三體現(xiàn)在對視頻大數(shù)據(jù)重組的需求。因為視頻是一個圖像、聲音、文字的時間序列,這個序列可以分片,可以合并,統(tǒng)稱為重組,F(xiàn)實生活中對視頻重組的需求是巨大而迫切的。例如,不同的人可能關(guān)心不同視頻中的某個主題和片段,那么就需要把這些主題和片段切分出來并進(jìn)行合并后交付給不同的用戶。這個例子講的是用戶的需求。還有一種更大的需求,是對視頻大數(shù)據(jù)處理的需求,因為為了加快大視頻的處理速度,則需要采用分而治之的云計算模式進(jìn)行處理,所以需要對視頻進(jìn)行分片后再合并。但視頻的分片、合并并不像文本那么容易和簡單,如果采用人工交互式地進(jìn)行分片,那么就會影響對視頻大數(shù)據(jù)的整體處理的自動化,因此急需一種更為智慧的計算來對視頻進(jìn)行自動高效的分片。
視頻大數(shù)據(jù)對智慧計算的需求,第四體現(xiàn)在對視頻大數(shù)據(jù)轉(zhuǎn)碼的需求。由于視頻結(jié)構(gòu)及其應(yīng)用的復(fù)雜性,所以以不同的方式來組織視頻數(shù)據(jù)就形成了視頻的不同編碼格式和封裝格式。視頻的編碼格式和封裝格式之多遠(yuǎn)遠(yuǎn)地超過了文本、圖像、聲音這些類型的文件數(shù)據(jù)。特別是隨著電視網(wǎng)、電腦網(wǎng)、手機(jī)網(wǎng)的互聯(lián)互通,使得三網(wǎng)之間視頻格式的互轉(zhuǎn)變得非常頻繁和泛化,轉(zhuǎn)碼可以使得視頻大數(shù)據(jù)在三網(wǎng)之間無礙地流通,這就使得三網(wǎng)上的視頻大數(shù)據(jù)對轉(zhuǎn)碼的需求與日俱增。當(dāng)人們用不同手機(jī)、在不同帶寬下觀看或下載同一個視頻源時,所得到的視頻的編碼格式和封裝格式可能都會不同,在這些時候,都有轉(zhuǎn)碼的發(fā)生。但隨著視頻大數(shù)據(jù)的數(shù)據(jù)量的激增,傳統(tǒng)上依靠改進(jìn)轉(zhuǎn)碼硬件性能及轉(zhuǎn)碼串行算法的途徑已經(jīng)無法滿足需求了,其結(jié)果必然會影響視頻下載和在線播放的速度。因此急需一種更為智慧的計算來對視頻進(jìn)行自動高效的轉(zhuǎn)碼。
視頻大數(shù)據(jù)對智慧計算的需求,第五體現(xiàn)在對視頻大數(shù)據(jù)監(jiān)控的需求。高速公路上、個人家庭中、公司中、超市中、ATM機(jī)旁等地方,監(jiān)控攝像頭無處不在,但這些“眼睛”真的在發(fā)揮作用嗎?大部分的監(jiān)控攝像頭只能起到事后取證的作用,而無法像人眼那樣看到異常立即報警。當(dāng)前視頻監(jiān)控大數(shù)據(jù)沒有做到實時的監(jiān)控和處理,也沒有做到事后的海量挖掘和分析。因此急需一種更為智慧的計算來對視頻進(jìn)行自動高效的監(jiān)控。
視頻大數(shù)據(jù)對智慧計算的需求,第六體現(xiàn)在對視頻大數(shù)據(jù)審查的需求,F(xiàn)在網(wǎng)絡(luò)上黃色視頻、暴力視頻嚴(yán)重危害了未成年人的身心健康,如果靠人工網(wǎng)絡(luò)警察去一個個地看、一個個地查,總是有漏網(wǎng)之魚的視頻,因為視頻的數(shù)量實在太大了,而且每一個視頻人工也難以從頭看到尾,即使從頭看到尾也難以對非法內(nèi)容毫無遺漏。因此迫切需要一種更為智慧的計算來對視頻進(jìn)行自動高效的審查。
視頻大數(shù)據(jù)對智慧計算還有很多其他需求,統(tǒng)稱為對視頻大數(shù)據(jù)處理的需求,包括對視頻分類的需求、對視頻推薦的需求、對視頻拆條的需求等。這些需求也隨著視頻大數(shù)據(jù)的數(shù)據(jù)量的攀升而越來越需要一種更為智慧的計算來對視頻進(jìn)行自動高效的處理。
1.3視頻大數(shù)據(jù)智慧計算的分類
視頻大數(shù)據(jù)智慧計算方法,如果按照需求進(jìn)行分類,則可以分為:視頻大數(shù)據(jù)識別的方法、視頻大數(shù)據(jù)重建的方法、視頻大數(shù)據(jù)重組的方法、視頻大數(shù)據(jù)轉(zhuǎn)碼的方法、視頻大數(shù)據(jù)監(jiān)控的方法、視頻大數(shù)據(jù)審查的方法和視頻大數(shù)據(jù)處理的方法,如圖1.3所示。
圖1.3視頻大數(shù)據(jù)智慧計算方法按照需求的分類
但如果從結(jié)合視頻大數(shù)據(jù)的時空性三個維度來分類,則視頻大數(shù)據(jù)智慧計算可以分為:視頻大數(shù)據(jù)空間智慧計算方法、視頻大數(shù)據(jù)時間智慧計算方法、視頻大數(shù)據(jù)時空智慧計算方法,如圖1.4所示。這里沒有提到本性維。因為本性維是最基本的維,不管是哪種類型的計算,本性維都默認(rèn)存在并且參與其中,因為如果脫離了視頻的本性來討論視頻的時間性、空間性和時空性是沒有意義,“皮之不存,毛將焉附?” 圖1.4視頻大數(shù)據(jù)智慧計算方法按照維度的分類第2章視頻大數(shù)據(jù)空間智慧計算方法第2章視頻大數(shù)據(jù)空間智慧計算方法
如果不考慮時間維,則視頻成為了一幅幅靜止的圖像,所以只考慮空間維的視頻大數(shù)據(jù)實質(zhì)上是圖像大數(shù)據(jù),所以視頻大數(shù)據(jù)空間智慧計算方法實質(zhì)上是圖像大數(shù)據(jù)智慧計算方法。之所以要將視頻大數(shù)據(jù)的空間維拿出來單獨研究,是因為的確有不少視頻實際應(yīng)用(如視頻大數(shù)據(jù)中圖像的識別、重建)中只涉及視頻的空間維,所以研究視頻大數(shù)據(jù)空間智慧計算方法有其實際意義。將視頻大數(shù)據(jù)的空間維拿出來單獨研究的另一個原因是,只有將視頻大數(shù)據(jù)的空間維(各幅圖像)的智慧計算方法研究清楚了,才能與視頻大數(shù)據(jù)的時間維(各幀)進(jìn)行結(jié)合,從而為視頻大數(shù)據(jù)的時空智慧計算方法奠定基礎(chǔ)。
本章提出了使得視頻空間計算更加智慧的方法,2.1節(jié)利用識別知識庫,2.2節(jié)利用圖像樣本庫,2.3節(jié)利用三維模型庫,加上自動搜索和匹配的算法,使得視頻空間計算(就是圖像的識別重建)更加自動化、普適化、精準(zhǔn)化,再加上并行計算,又可使之快速化,從而使得在視頻空間計算方面,計算機(jī)更加接近人腦對圖像的處理重建能力,因而更接近人的智慧。
2.1識別知識庫下物體識別的方法
本方法提供一種基于識別知識庫的識別方法,用于識別多個類型目標(biāo),所述識別方法包括:從關(guān)聯(lián)索引表中尋找與興趣目標(biāo)最接近的預(yù)期目標(biāo)樣本;根據(jù)關(guān)聯(lián)索引表調(diào)用相應(yīng)的預(yù)期目標(biāo)特征提取規(guī)則,并根據(jù)該特征提取規(guī)則確定匹配窗口;根據(jù)關(guān)聯(lián)索引表調(diào)用相應(yīng)的特征提取規(guī)則,由所述匹配窗口對待識別對象進(jìn)行特征提;調(diào)用對應(yīng)的特征比較規(guī)則并調(diào)用關(guān)聯(lián)的特征比較程序,根據(jù)所述特征比較程序?qū)㈩A(yù)期目標(biāo)樣本的特征與匹配窗口中的對象的特征進(jìn)行比較,并將特征比較的結(jié)果記為相似度;根據(jù)所述相似度確定識別結(jié)果。本方法提供的基于識別知識庫的識別方法,預(yù)先在識別知識庫中存儲若干類型目標(biāo)樣本,實現(xiàn)識別多個類型目標(biāo)。
2.1.1現(xiàn)有物體識別方法的不足
現(xiàn)代信息處理技術(shù)的發(fā)展使得自動識別技術(shù)成為可能,比較常見的例子就是,將計算機(jī)信息處理技術(shù)應(yīng)用到識別技術(shù)領(lǐng)域,使得無需人為操作從而實現(xiàn)自動化識別興趣目標(biāo)。
目前,自動識別方法有條碼識別、IC卡識別、射頻識別(RFID)、聲音識別、視覺識別以及光學(xué)字符識別等。
識別的過程就是從對象中識別出目標(biāo),對所述對象中目標(biāo)進(jìn)行識別得到的結(jié)果被稱為識別結(jié)果。
識別即是通過目標(biāo)的特征將目標(biāo)從對象中分離出來并判斷出目標(biāo)類型和目標(biāo)屬性的過程。識別的對象可以是圖像、聲音、視頻、波譜、文本等中的一種類型或其混合。例如,識別一個人,可以同時識別他的語音(聲音識別)、面部相貌(圖像識別)。再如識別草,可以同時識別它的可見光譜(圖像識別)和紅外光譜(波譜識別)。識別的輸入為對象,輸出為目標(biāo)。
樣本,是指用于識別的參照目標(biāo),其一般預(yù)先存儲在所述識別系統(tǒng)中的數(shù)據(jù)庫(也稱識別知識庫)。
……