熱線電話:0755-23712116
郵箱:contact@legoupos.cn
地址:深圳市寶安區沙井街道后亭茅洲(zhou)山工(gong)業園工(gong)業大廈全至科(ke)技創新園科(ke)創大廈2層2A

視覺(jue)是人(ren)類強(qiang)大(da)的(de)(de)(de)感知(zhi)方式,它為人(ren)們(men)提供了關于周(zhou)(zhou)圍環境(jing)的(de)(de)(de)大(da)量信息(xi),使人(ren)們(men)能(neng)有效地(di)與(yu)周(zhou)(zhou)圍環境(jing)進行交互(hu)。據統計(ji),人(ren)類從外界接(jie)收的(de)(de)(de)各種信息(xi)中80%以上是通過視覺(jue)獲得的(de)(de)(de),人(ren)類有50%的(de)(de)(de)大(da)腦皮(pi)層參與(yu)視覺(jue)功能(neng)運轉。
關于(yu)視覺有(you)很(hen)多有(you)趣(qu)的(de)(de)(de)發現(xian),比如(ru)螳螂(lang)蝦(xia)(xia)的(de)(de)(de)眼(yan)(yan)睛(jing)能探(tan)測(ce)到偏振(zhen)光。人眼(yan)(yan)以及普通相機只(zhi)(zhi)(zhi)能感受到光的(de)(de)(de)強(qiang)度信(xin)(xin)息(xi)(xi)而不能探(tan)測(ce)到光的(de)(de)(de)偏振(zhen)信(xin)(xin)息(xi)(xi)。澳大利亞昆士蘭大學的(de)(de)(de)研究人員發現(xian),螳螂(lang)蝦(xia)(xia)的(de)(de)(de)復眼(yan)(yan)(見圖(tu)1-2)能探(tan)測(ce)到偏振(zhen)光。根據生(sheng)物醫學及光學方(fang)面的(de)(de)(de)理論知識,生(sheng)物組織(zhi)特(te)性與偏振(zhen)信(xin)(xin)息(xi)(xi)有(you)關,所以螳螂(lang)蝦(xia)(xia)的(de)(de)(de)眼(yan)(yan)睛(jing)是能夠“診斷(duan)”出生(sheng)物組織(zhi)的(de)(de)(de)病變的(de)(de)(de)。此外(wai),蜻蜓(ting)等昆蟲具有(you)復眼(yan)(yan)結構(見圖(tu)1-3),蜘蛛(zhu)有(you)很(hen)多只(zhi)(zhi)(zhi)眼(yan)(yan)睛(jing),青(qing)蛙的(de)(de)(de)眼(yan)(yan)睛(jing)只(zhi)(zhi)(zhi)能看到動態場景,狗(gou)對色彩信(xin)(xin)息(xi)(xi)的(de)(de)(de)分辨能力極低(di)。
圖1-2螳螂蝦的(de)眼睛
圖1-3蜻蜓的眼睛
那么, 介紹完生物(wu)的視覺功能之后(hou), 什(shen)么是機器視覺呢?
機器(qi)視覺(jue)是(shi)機器(qi)(通常指數字計算(suan)機)圖像(xiang)進行自動(dong)處理并報告 “ 圖像(xiang)是(shi)什么” 的過程,也就是(shi)說它用于識別圖像(xiang)中的內容,比如自動(dong)目(mu)標識別。
機器視覺一般(ban)以(yi)計算機為中心(xin),主(zhu)要由視覺傳感器、高速圖像采集(ji)系統及專用圖像處理系統等(deng)模塊組成。
根(gen)據(ju)David A. Forsyth和Jean Ponce的(de)(de)定義,計算機(ji)視覺是(shi)借(jie)助于(yu)幾何(he)(he)、物(wu)(wu)(wu)理(li)和學習理(li)論(lun)來建立(li)模型(xing),從而(er)使(shi)用統計方法來處理(li)數(shu)據(ju)的(de)(de)工作。它(ta)是(shi)指在透徹理(li)解相機(ji)性能與物(wu)(wu)(wu)理(li)成像(xiang)過(guo)(guo)程的(de)(de)基礎(chu)上,通(tong)過(guo)(guo)對每個像(xiang)素(su)值進行簡單的(de)(de)推理(li),將多(duo)幅圖像(xiang)中可能得到的(de)(de)信(xin)息綜(zong)合成相互關聯(lian)的(de)(de)整體,確定像(xiang)素(su)之間(jian)的(de)(de)聯(lian)系以便將它(ta)們彼此分(fen)割(ge)開,或推斷一些(xie)形狀(zhuang)信(xin)息,進而(er)使(shi)用幾何(he)(he)信(xin)息或概(gai)率統計計數(shu)來識別物(wu)(wu)(wu)體。
從系統的(de)輸入(ru)輸出(chu)方式考慮,機器視覺(jue)系統的(de)輸入(ru)是圖(tu)像或(huo)者圖(tu)像序列,輸出(chu)是一(yi)個描述。進(jin)一(yi)步(bu)講,機器視覺(jue)由兩部分(fen)組(zu)成:特(te)征(zheng)(zheng)度(du)量(liang)與基于這些特(te)征(zheng)(zheng)的(de)模式識別。
機器視覺與圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)處(chu)(chu)理(li)(li)是(shi)有(you)區別的(de)(de)。圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)處(chu)(chu)理(li)(li)的(de)(de)目的(de)(de)是(shi)使(shi)圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)經(jing)過處(chu)(chu)理(li)(li)后變得更好,圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)處(chu)(chu)理(li)(li)系(xi)統的(de)(de)輸出(chu)仍然是(shi)一(yi)幅圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang),而(er)機器視覺系(xi)統的(de)(de)輸出(chu)是(shi)與圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)內(nei)容(rong)有(you)關的(de)(de)信息。圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)處(chu)(chu)理(li)(li)可分為低(di)級圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)處(chu)(chu)理(li)(li)、中級圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)處(chu)(chu)理(li)(li)和高級圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)處(chu)(chu)理(li)(li),處(chu)(chu)理(li)(li)內(nei)容(rong)包含圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)增強、圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)編(bian)碼、圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)壓縮、圖(tu)(tu)(tu)(tu)(tu)(tu)像(xiang)(xiang)(xiang)(xiang)復原與重構(gou)等(deng)。
01機器視覺的發展
圖1-4所示為(wei)20世(shi)紀70年代(dai)至今機器視覺發(fa)展過程中(zhong)(zhong)的(de)(de)(de)部分(fen)主題,包括機器視覺發(fa)展初期(qi)(20世(shi)紀70年代(dai))的(de)(de)(de)數字圖像處理和積木世(shi)界,20世(shi)紀80年代(dai)的(de)(de)(de)卡(ka)爾(er)曼濾波(bo)、正(zheng)則化,20世(shi)紀90年代(dai)的(de)(de)(de)圖像分(fen)割(ge)、基于統計學(xue)(xue)的(de)(de)(de)圖像處理以(yi)及(ji)21世(shi)紀計算攝像學(xue)(xue)與(yu)機器視覺中(zhong)(zhong)的(de)(de)(de)深(shen)度學(xue)(xue)習等(deng)。
圖1-4機器視覺發展過程中的(de)部分主(zhu)題(ti)
1. 20世紀70年代
機(ji)(ji)(ji)器(qi)(qi)視(shi)覺(jue)始于20世紀(ji)70年(nian)代(dai)早期,它(ta)被視(shi)為模擬人類智(zhi)能并賦予機(ji)(ji)(ji)器(qi)(qi)人智(zhi)能行為的(de)(de)感知組成部分。當時,人工(gong)智(zhi)能和機(ji)(ji)(ji)器(qi)(qi)人的(de)(de)一些(xie)早期研究(jiu)(jiu)者( 如麻(ma)(ma)省理(li)工(gong)大學、斯坦福大學、卡內基·梅隆(long)大學的(de)(de)研究(jiu)(jiu)者)認(ren)為,在解決高層次推理(li)和規(gui)劃等更困(kun)難問(wen)題(ti)的(de)(de)過(guo)程中,解決 “ 視(shi)覺(jue)輸入” 問(wen)題(ti)應該是一個(ge)簡單(dan)的(de)(de)步驟。比如,1966年(nian),麻(ma)(ma)省理(li)工(gong)大學的(de)(de)Marvin Minsky讓他(ta)的(de)(de)本科生Gerald Jay Sussman在暑期將相機(ji)(ji)(ji)連接到計(ji)算機(ji)(ji)(ji)上,讓計(ji)算機(ji)(ji)(ji)來(lai)描述它(ta)所看到的(de)(de)東西(xi)。現在,大家(jia)知道這些(xie)看似(si)簡單(dan)的(de)(de)問(wen)題(ti)其(qi)實并不容易解決。
數(shu)字圖(tu)(tu)像處理(li)(li)出(chu)現在20世紀60年代。與已(yi)經存在的(de)(de)(de)數(shu)字圖(tu)(tu)像處理(li)(li)領域(yu)不同(tong)的(de)(de)(de)是,機(ji)器視覺(jue)期(qi)望從圖(tu)(tu)像中恢復出(chu)實(shi)物的(de)(de)(de)三(san)維結(jie)構并以(yi)此得(de)出(chu)完整的(de)(de)(de)場景理(li)(li)解(jie)。場景理(li)(li)解(jie)的(de)(de)(de)早期(qi)嘗試包括(kuo)物體( 即 “ 積木世界”) 的(de)(de)(de)邊緣(yuan)抽(chou)取及隨后的(de)(de)(de)從二維線條(tiao)的(de)(de)(de)拓撲結(jie)構推斷其三(san)維結(jie)構。當時有學者提(ti)出(chu)了一些線條(tiao)標注算法,此外,邊緣(yuan)檢測也是一個活躍的(de)(de)(de)研究領域(yu)。
20世紀70年代,人們還對(dui)物體(ti)的三維建模進(jin)行了(le)研究。Barrow、Tenenbaum與Marr提出了(le)一種理解(jie)亮度(du)和(he)陰影(ying)變化(hua)的方法(fa),并通過表面(mian)朝向和(he)陰影(ying)等恢(hui)復(fu)三維結構。那時也(ye)出現(xian)了(le)一些更定量化(hua)的機器視覺方法(fa),包括(kuo)基于(yu)特(te)征的立體(ti)視覺對(dui)應(stereo correspondence)算法(fa)和(he)基于(yu)亮度(du)的光流(liu)(optica lflow)算法(fa),同時,關于(yu)恢(hui)復(fu)三維結構和(he)相機運動的研究工作也(ye)開始出現(xian)。
另外,David Marr 特別介紹了其(qi)關于( 視覺)信息處理(li)系統(tong)表達的(de)三個層次(ci):
1)計(ji)算理論:計(ji)算( 任(ren)務)的目(mu)的是什(shen)(shen)么(me)(me)?針對該問題已(yi)知或可以施加的約束是什(shen)(shen)么(me)(me)?
2)表達和算(suan)法:輸入、輸出和中間信息是(shi)如何(he)表達的?使用哪些算(suan)法來計算(suan)所期望的結果?
3)硬(ying)件(jian)實(shi)現:表達和(he)算(suan)法是如何映射到實(shi)際硬(ying)件(jian)即生物(wu)視(shi)覺系(xi)統或(huo)特(te)殊(shu)的(de)(de)硅片(pian)上的(de)(de)?相反地,硬(ying)件(jian)的(de)(de)約束怎樣才能用(yong)于指導表達和(he)算(suan)法的(de)(de)選擇?隨著機(ji)器視(shi)覺對芯片(pian)計算(suan)能力需求的(de)(de)日(ri)益增(zeng)長,這個(ge)問題再次變得(de)相當重要。
2. 20世紀80年代
20世紀(ji)80年(nian)代(dai),圖像(xiang)金字塔和尺度空間(jian)開(kai)始廣泛用(yong)于由粗到精的(de)對應(ying)點搜索在80年(nian)代(dai)后期(qi),在一些應(ying)用(yong)中小波(bo)變換開(kai)始取代(dai)圖像(xiang)金字塔。
三維視覺重建中出現“由(you)X到(dao)形狀(zhuang)”的(de)方法(fa),包括(kuo)由(you)陰(yin)影(ying)到(dao)形狀(zhuang)、由(you)光度立(li)體視覺到(dao)形狀(zhuang)、由(you)紋理(li)到(dao)形狀(zhuang)及(ji)由(you)聚焦(jiao)到(dao)形狀(zhuang)。這一時期,探尋(xun)更準(zhun)確的(de)邊緣和輪廓檢測方法(fa)是一個活躍的(de)研(yan)究領域(yu),其中包括(kuo)動態演化(hua)(hua)輪廓跟(gen)蹤器的(de)引入例如(ru)Snake模(mo)型(xing)。立(li)體視覺、光流、由(you)X到(dao)形狀(zhuang)及(ji)邊緣檢測算(suan)法(fa)如(ru)果作(zuo)為變分優化(hua)(hua)問題來處(chu)理(li),可以用相同的(de)數學框架(jia)來統(tong)一來描述,而且可以使用正(zheng)則化(hua)(hua)方法(fa)增(zeng)加魯棒性。 此外,卡爾曼濾波和三維距離數據世紀90年代(range data)處(chu)理(li)仍然是這十年很(hen)活躍的(de)研(yan)究領域(yu)。
3. 20世紀90年代
20世紀90年代, 視覺的發展情(qing)況如下:
1)關于(yu)在(zai)識別中使用(yong)(yong)投影(ying)(ying)不(bu)變量(liang)的(de)(de)研究呈現爆發式增長,這(zhe)種方法(fa)(fa)可(ke)有效(xiao)用(yong)(yong)于(yu)從運(yun)動到結構的(de)(de)問題。最初很多研究是針(zhen)對投影(ying)(ying)重建問題的(de)(de),它不(bu)需要相(xiang)機(ji)標定的(de)(de)結果。與(yu)此同時,有人提出了用(yong)(yong)因子分解(jie)方法(fa)(fa)來(lai)高效(xiao)地(di)解(jie)決近似正交投影(ying)(ying)的(de)(de)問題,后(hou)來(lai)這(zhe)種方法(fa)(fa)擴展到了透(tou)視(shi)投影(ying)(ying)的(de)(de)情況。該領(ling)域開始使用(yong)(yong)全局優化方法(fa)(fa),后(hou)來(lai)被認(ren)為(wei)與(yu)攝影(ying)(ying)測量(liang)學中常用(yong)(yong)的(de)(de) “ 光(guang)束平差法(fa)(fa)” 相(xiang)關。
2)出(chu)現了使用顏(yan)色和亮度的(de)精細測量,并(bing)將其與精確(que)的(de)輻(fu)射(she)傳輸和形成(cheng)彩色圖像的(de)物理模型相結合。這方(fang)面的(de)工(gong)作(zuo)始(shi)于(yu)20世紀80年代, 構成(cheng)了一個稱作(zuo) “ 基于(yu)物理的(de)視覺( physics-based visio) ” 的(de)子(zi)領域。
3)光流方法得(de)到(dao)了不斷的改進。
4)在稠密(mi)立(li)體視覺(jue)對(dui)應(ying)算法方(fang)面也取得了很多進展。其中最(zui)大(da)的突破可能就是(shi)使用“ 圖割(graph cut)” 方(fang)法的全局優(you)化算法。
5)可以產(chan)生完(wan)整三維表面(mian)的多視角立體視覺算法。
6)跟蹤(zong)(zong)算法也(ye)得到了很多改進,包括使用 “ 活動輪廓” 方(fang)法的輪廓跟蹤(zong)(zong)( 例如蛇形(xing)、粒子(zi)濾波和(he)(he)水平集方(fang)法)和(he)(he)基(ji)于亮度的跟蹤(zong)(zong)。
7)統計學習方法(fa)開(kai)始(shi)流行起來(lai),如應(ying)用(yong)于人臉(lian)識別的(de)主成分分析。
3. 21世紀
21世紀(ji),計(ji)(ji)算(suan)(suan)機視覺(jue)與計(ji)(ji)算(suan)(suan)機圖(tu)(tu)形學之(zhi)間的(de)(de)交叉越來越明顯,特(te)別是在基(ji)于圖(tu)(tu)像(xiang)(xiang)的(de)(de)建模和繪制這個交叉領域(yu)。另外,計(ji)(ji)算(suan)(suan)攝像(xiang)(xiang)學發揮越來越重(zhong)要的(de)(de)作(zuo)用,包括光場(chang)獲(huo)取(qu)和繪制以及通過多曝光實現的(de)(de)高(gao)動態范圍成像(xiang)(xiang)。目標識別中基(ji)于特(te)征(zheng)的(de)(de)方法( 與學習方法相結合)日益凸顯,更(geng)高(gao)效的(de)(de)復雜(za)全(quan)局優化(hua)問題求解算(suan)(suan)法也(ye)得(de)到(dao)了發展(zhan)。
最(zui)后一個趨勢(shi)是復雜的(de)(de)(de)機器學(xue)(xue)習方法(fa)(fa)在(zai)計(ji)算機視覺中(zhong)(zhong)的(de)(de)(de)應用(yong),尤其是近(jin)幾年,基于(yu)深度(du)學(xue)(xue)習的(de)(de)(de)機器學(xue)(xue)習方法(fa)(fa)在(zai)圖(tu)像與視頻等方面中(zhong)(zhong)的(de)(de)(de)關于(yu)目標檢測、跟蹤、理解等領域的(de)(de)(de)應用(yong)。
02機器視覺與其他領域的關系
機(ji)器(qi)視覺屬于交(jiao)叉學科(ke),它與眾多領(ling)域都有關(guan)聯,尤其是機(ji)器(qi)視覺與計算機(ji)視覺之間(jian)的(de)關(guan)系,有的(de)學者(zhe)認為二(er)者(zhe)一樣,有的(de)則認為二(er)者(zhe)存在差別,圖(tu)(tu)1-5顯示了機(ji)器(qi)視覺與其他(ta)領(ling)域的(de)關(guan)系圖(tu)(tu),包括計算機(ji)視覺、圖(tu)(tu)像處理、人工智能(neng)、機(ji)器(qi)人控(kong)制、信(xin)(xin)號處理、成像等(deng)(deng)。人工智能(neng)、機(ji)器(qi)人控(kong)制等(deng)(deng)概念在相關(guan)學科(ke)中都有比較明確的(de)定義。成像是表(biao)示或重構(gou)客觀物體(ti)形(xing)狀及相關(guan)信(xin)(xin)息的(de)學科(ke)。
圖1-5機器視覺(jue)與其(qi)他領域關系(xi)
圖(tu)(tu)像(xiang)處理(li)主要(yao)是(shi)基于已有圖(tu)(tu)像(xiang)生(sheng)成一張新的圖(tu)(tu)像(xiang),可以通(tong)過噪聲抑(yi)制、去(qu)模糊、邊緣(yuan)增強等(deng)處理(li)來實現。模式識(shi)別的主要(yao)任務是(shi)對模式進行分類。機(ji)器(qi)視覺(jue)的核心問題是(shi)從一張或多張圖(tu)(tu)像(xiang)生(sheng)成一個(ge)符號描述。計(ji)(ji)算(suan)(suan)(suan)(suan)機(ji)視覺(jue)與(yu)計(ji)(ji)算(suan)(suan)(suan)(suan)機(ji)圖(tu)(tu)形學(xue)是(shi)相(xiang)互關(guan)聯而又互逆(ni)的過程。計(ji)(ji)算(suan)(suan)(suan)(suan)機(ji)圖(tu)(tu)形學(xue)的目的是(shi)真(zhen)實或非(fei)真(zhen)實地呈現一些場景,即通(tong)過虛擬建模等(deng)方式對得(de)到(dao)的場景進行處理(li),然后使用計(ji)(ji)算(suan)(suan)(suan)(suan)機(ji)進行呈現;而計(ji)(ji)算(suan)(suan)(suan)(suan)機(ji)視覺(jue)是(shi)為了(le)得(de)到(dao)真(zhen)實場景的信息(xi)通(tong)過采集(ji)圖(tu)(tu)像(xiang)進行處理(li)。