根據(jù)亞馬遜官方的說(shuō)法, Amazon Go是技術(shù)創(chuàng)新的成果,無(wú)人便利店內(nèi)應(yīng)用了計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)算法,無(wú)線射頻識(shí)別、圖像分析和感測(cè)融合等多種技術(shù),原理類似于無(wú)人駕駛。
那么下邊就介紹一下計(jì)算機(jī)視覺(jué)與圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)之間的關(guān)系。
要實(shí)現(xiàn)計(jì)算機(jī)視覺(jué)必須有圖像處理的幫助,而圖像處理倚仗與模式識(shí)別的有效運(yùn)用,而模式識(shí)別是人工智能領(lǐng)域的一個(gè)重要分支,人工智能與機(jī)器學(xué)習(xí)密不可分?v觀一切關(guān)系,發(fā)現(xiàn)計(jì)算機(jī)視覺(jué)的應(yīng)用服務(wù)于機(jī)器學(xué)習(xí),各個(gè)環(huán)節(jié)缺一不可,相輔相成。
計(jì)算機(jī)視覺(jué)
計(jì)算機(jī)視覺(jué)(computer vision):用計(jì)算機(jī)來(lái)模擬人的視覺(jué)機(jī)理獲取和處理信息的能力。就是指用攝影機(jī)和電腦代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別、跟蹤和測(cè)量等機(jī)器視覺(jué),并進(jìn)一步做圖形處理,用電腦處理成為更適合人眼觀察或傳送給儀器檢測(cè)的圖像。
計(jì)算機(jī)視覺(jué)研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取'信息'的人工智能系統(tǒng)。計(jì)算機(jī)視覺(jué)的挑戰(zhàn)是要為計(jì)算機(jī)和機(jī)器人開(kāi)發(fā)具有與人類水平相當(dāng)?shù)囊曈X(jué)能力。
機(jī)器視覺(jué)需要圖象信號(hào),紋理和顏色建模,幾何處理和推理,以及物體建模。一個(gè)有能力的視覺(jué)系統(tǒng)應(yīng)該把所有這些處理都緊密地集成在一起。
圖像處理
圖像處理(image processing):用計(jì)算機(jī)對(duì)圖像進(jìn)行分析,以達(dá)到所需結(jié)果的技術(shù)。又稱影像處理。
圖像處理一般指數(shù)字圖像處理。數(shù)字圖像是指用數(shù)字?jǐn)z像機(jī)、掃描儀等設(shè)備經(jīng)過(guò)采樣和數(shù)字化得到的一個(gè)大的二維數(shù)組,該數(shù)組的元素稱為像素,其值為一整數(shù),稱為灰度值。
圖像處理技術(shù)的主要內(nèi)容包括圖像壓縮,增強(qiáng)和復(fù)原,匹配、描述和識(shí)別3個(gè)部分。常見(jiàn)的處理有圖像數(shù)字化、圖像編碼、圖像增強(qiáng)、圖像復(fù)原、圖像分割和圖像分析等。
模式識(shí)別
模式識(shí)別(Pattern Recognition)是指對(duì)表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進(jìn)行處理和分析,以對(duì)事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過(guò)程,是信息科學(xué)和人工智能的重要組成部分。
模式識(shí)別又常稱作模式分類,從處理問(wèn)題的性質(zhì)和解決問(wèn)題的方法等角度,模式識(shí)別分為有監(jiān)督的分類(Supervised Classification)和無(wú)監(jiān)督的分類(Unsupervised Classification)兩種。模式還可分成抽象的和具體的兩種形式。前者如意識(shí)、思想、議論等,屬于概念識(shí)別研究的范疇,是人工智能的另一研究分支。我們所指的模式識(shí)別主要是對(duì)語(yǔ)音波形、地震波、心電圖、腦電圖、圖片、照片、文字、符號(hào)、生物傳感器等對(duì)象的具體模式進(jìn)行辨識(shí)和分類。
模式識(shí)別研究主要集中在兩方面:
一是研究生物體(包括人)是如何感知對(duì)象的,屬于認(rèn)識(shí)科學(xué)的范疇;
二是在給定的任務(wù)下,如何用計(jì)算機(jī)實(shí)現(xiàn)模式識(shí)別的理論和方法
應(yīng)用計(jì)算機(jī)對(duì)一組事件或過(guò)程進(jìn)行辨識(shí)和分類,所識(shí)別的事件或過(guò)程可以是文字、聲音、圖像等具體對(duì)象,也可以是狀態(tài)、程度等抽象對(duì)象。這些對(duì)象與數(shù)字形式的信息相區(qū)別,稱為模式信息。
模式識(shí)別與統(tǒng)計(jì)學(xué)、心理學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)、控制論等都有關(guān)系。它與人工智能、圖像處理的研究有交叉關(guān)系。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)(Machine Learning)是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。
機(jī)器學(xué)習(xí)在人工智能的研究中具有十分重要的地位。一個(gè)不具有學(xué)習(xí)能力的智能系統(tǒng)難以稱得上是一個(gè)真正的智能系統(tǒng),但是以往的智能系統(tǒng)都普遍缺少學(xué)習(xí)的能力。隨著人工智能的深入發(fā)展,這些局限性表現(xiàn)得愈加突出。正是在這種情形下,機(jī)器學(xué)習(xí)逐漸成為人工智能研究的核心之一。它的應(yīng)用已遍及人工智能的各個(gè)分支,如專家系統(tǒng)、自動(dòng)推理、自然語(yǔ)言理解、模式識(shí)別、計(jì)算機(jī)視覺(jué)、智能機(jī)器人等領(lǐng)域。
機(jī)器學(xué)習(xí)的研究是根據(jù)生理學(xué)、認(rèn)知科學(xué)等對(duì)人類學(xué)習(xí)機(jī)理的了解,建立人類學(xué)習(xí)過(guò)程的計(jì)算模型或認(rèn)識(shí)模型,發(fā)展各種學(xué)習(xí)理論和學(xué)習(xí)方法,研究通用的學(xué)習(xí)算法并進(jìn)行理論上的分析,建立面向任務(wù)的具有特定應(yīng)用的學(xué)習(xí)系統(tǒng)。這些研究目標(biāo)相互影響相互促進(jìn)。
人類研究計(jì)算機(jī)的目的,是為了提高社會(huì)生產(chǎn)力水平,提高生活質(zhì)量,把人從單調(diào)復(fù)雜甚至危險(xiǎn)的工作中解救出來(lái)。今天的計(jì)算機(jī)在計(jì)算速度上已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了人,然而在很多方面,特別是在人類智能活動(dòng)有關(guān)的方面例如在視覺(jué)功能、聽(tīng)覺(jué)功能、嗅覺(jué)功能、自然語(yǔ)言理解能力功能等等方面,還不如人。
這種現(xiàn)狀無(wú)法滿足一些高級(jí)應(yīng)用的要求。例如,我們希望計(jì)算機(jī)能夠及早地發(fā)現(xiàn)路上的可疑情況并提醒汽車駕駛員以避免發(fā)生事故,我們更希望計(jì)算機(jī)能幫助我們進(jìn)行自動(dòng)駕駛,目前的技術(shù)還不足以滿足諸如此類高級(jí)應(yīng)用的要求,還需要更多的人工智能研究成果和系統(tǒng)實(shí)現(xiàn)的經(jīng)驗(yàn)。
人工智能
人工智能,是由人類設(shè)計(jì)并在計(jì)算機(jī)環(huán)境下實(shí)現(xiàn)的模擬或再現(xiàn)某些人智能行為的技術(shù)。一般認(rèn)為,人類智能活動(dòng)可以分為兩類:感知行為與思維活動(dòng)。模擬感知行為的人工智能研究的一些例子包括語(yǔ)音識(shí)別、話者識(shí)別等與人類的聽(tīng)覺(jué)功能有關(guān)的"計(jì)算機(jī)聽(tīng)覺(jué)",物體三維表現(xiàn)的形狀知識(shí)、距離、速度感知等與人類視覺(jué)有關(guān)的"計(jì)算機(jī)視覺(jué)",等等。模擬思維活動(dòng)的人工智能研究的例子包括符號(hào)推理、模糊推理、定理證明等與人類思維有關(guān)的"計(jì)算機(jī)思維",等等。
從圖像處理和模式識(shí)別發(fā)展起來(lái)的計(jì)算機(jī)視覺(jué)研究對(duì)象之一是如何利用二維投影圖像恢復(fù)三維景物世界。計(jì)算機(jī)視覺(jué)使用的理論方法主要是基于幾何、概率和運(yùn)動(dòng)學(xué)計(jì)算與三維重構(gòu)的視覺(jué)計(jì)算理論,它的基礎(chǔ)包括射影幾何學(xué)、剛體運(yùn)動(dòng)力學(xué)、概率論與隨機(jī)過(guò)程、圖像處理、人工智能等理論。
計(jì)算機(jī)視覺(jué)要達(dá)到的基本目的有以下幾個(gè):
(1) 根據(jù)一幅或多幅二維投影圖像計(jì)算出觀察點(diǎn)到目標(biāo)物體的距離;
(2) 根據(jù)一幅或多幅二維投影圖像計(jì)算出目標(biāo)物體的運(yùn)動(dòng)參數(shù);
(3) 根據(jù)一幅或多幅二維投影圖像計(jì)算出目標(biāo)物體的表面物理特性;
(4) 根據(jù)多幅二維投影圖像恢復(fù)出更大空間區(qū)域的投影圖像。
計(jì)算機(jī)視覺(jué)要達(dá)到的最終目的是實(shí)現(xiàn)利用計(jì)算機(jī)對(duì)于三維景物世界的理解,即實(shí)現(xiàn)人的視覺(jué)系統(tǒng)的某些功能。
在計(jì)算機(jī)視覺(jué)領(lǐng)域里,醫(yī)學(xué)圖像分析、光學(xué)文字識(shí)別對(duì)模式識(shí)別的要求需要提到一定高度。又如模式識(shí)別中的預(yù)處理和特征抽取環(huán)節(jié)應(yīng)用圖像處理的技術(shù);圖像處理中的圖像分析也應(yīng)用模式識(shí)別的技術(shù)。在計(jì)算機(jī)視覺(jué)的大多數(shù)實(shí)際應(yīng)用當(dāng)中,計(jì)算機(jī)被預(yù)設(shè)為解決特定的任務(wù),然而基于機(jī)器學(xué)習(xí)的方法正日漸普及,一旦機(jī)器學(xué)習(xí)的研究進(jìn)一步發(fā)展,未來(lái)"泛用型"的電腦視覺(jué)應(yīng)用或許可以成真。
人工智能所研究的一個(gè)主要問(wèn)題是:如何讓系統(tǒng)具備"計(jì)劃"和"決策能力"?從而使之完成特定的技術(shù)動(dòng)作(例如:移動(dòng)一個(gè)機(jī)器人通過(guò)某種特定環(huán)境)。這一問(wèn)題便與計(jì)算機(jī)視覺(jué)問(wèn)題息息相關(guān)。在這里,計(jì)算機(jī)視覺(jué)系統(tǒng)作為一個(gè)感知器,為決策提供信息。另外一些研究方向包括模式識(shí)別和機(jī)器學(xué)習(xí)(這也隸屬于人工智能領(lǐng)域,但與計(jì)算機(jī)視覺(jué)有著重要聯(lián)系),也由此,計(jì)算機(jī)視覺(jué)時(shí)常被看作人工智能與計(jì)算機(jī)科學(xué)的一個(gè)分支。
機(jī)器學(xué)習(xí)是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演譯。
為了達(dá)到計(jì)算機(jī)視覺(jué)的目的,有兩種技術(shù)途徑可以考慮。
第一種是仿生學(xué)方法,即從分析人類視覺(jué)的過(guò)程入手,利用大自然提供給我們的最好參考系--人類視覺(jué)系統(tǒng),建立起視覺(jué)過(guò)程的計(jì)算模型,然后用計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)之。
第二種是工程方法,即脫離人類視覺(jué)系統(tǒng)框框的約束,利用一切可行和實(shí)用的技術(shù)手段實(shí)現(xiàn)視覺(jué)功能。此方法的一般做法是,將人類視覺(jué)系統(tǒng)作為一個(gè)黑盒子對(duì)待,實(shí)現(xiàn)時(shí)只關(guān)心對(duì)于某種輸入,視覺(jué)系統(tǒng)將給出何種輸出。
這兩種方法理論上都是可以使用的,但面臨的困難是,人類視覺(jué)系統(tǒng)對(duì)應(yīng)某種輸入的輸出到底是什么,這是無(wú)法直接測(cè)得的。而且由于人的智能活動(dòng)是一個(gè)多功能系統(tǒng)綜合作用的結(jié)果,即使是得到了一個(gè)輸入輸出對(duì),也很難肯定它是僅由當(dāng)前的輸入視覺(jué)刺激所產(chǎn)生的響應(yīng),而不是一個(gè)與歷史狀態(tài)綜合作用的結(jié)果。
不難理解,計(jì)算機(jī)視覺(jué)的研究具有雙重意義。
其一,是為了滿足人工智能應(yīng)用的需要,即用計(jì)算機(jī)實(shí)現(xiàn)人工的視覺(jué)系統(tǒng)的需要。這些成果可以安裝在計(jì)算機(jī)和各種機(jī)器上,使計(jì)算機(jī)和機(jī)器人能夠具有"看"的能力。
其二,視覺(jué)計(jì)算模型的研究結(jié)果反過(guò)來(lái)對(duì)于我們進(jìn)一步認(rèn)識(shí)和研究人類視覺(jué)系統(tǒng)本身的機(jī)理,甚至人腦的機(jī)理,也同樣具有相當(dāng)大的參考意義。