手勢(shì)識(shí)別是近年來(lái)大熱的人機(jī)交互方式。由于功能炫酷、操作方便,智能家居、智能穿戴設(shè)備、智能汽車以及VR/AR等領(lǐng)域都增加了手勢(shì)識(shí)別控制功能。
手勢(shì)識(shí)別的發(fā)展歷程
最初的手勢(shì)識(shí)別主要是利用穿戴設(shè)備,直接檢測(cè)手、胳膊各關(guān)節(jié)的角度和空間位置。這些設(shè)備多是通過(guò)有線技術(shù)將計(jì)算機(jī)系統(tǒng)與用戶相互連接,使用戶的手勢(shì)信息完整無(wú)誤地傳送至識(shí)別系統(tǒng)中,其典型設(shè)備如數(shù)據(jù)手套等。這些設(shè)備雖可提供良好的檢測(cè)效果,但將其應(yīng)用在常用領(lǐng)域則價(jià)格昂貴。
其后,光學(xué)標(biāo)記方法取代了數(shù)據(jù)手套將光學(xué)標(biāo)記戴在人手上,通過(guò)紅外線可將人手位置和手指的變化傳送到系統(tǒng)屏幕上,該方法也可提供良好的效果,但仍需較為復(fù)雜的設(shè)備。
外部設(shè)備的介入雖使得手勢(shì)識(shí)別的準(zhǔn)確度和穩(wěn)定性得以提高,但卻掩蓋了手勢(shì)自然的表達(dá)方式為此,基于視覺的手勢(shì)識(shí)別方式應(yīng)運(yùn)而生。視覺手勢(shì)識(shí)別是指對(duì)視頻采集設(shè)備拍攝到的包含手勢(shì)的圖像序列,通過(guò)計(jì)算機(jī)視覺技術(shù)進(jìn)行處理,進(jìn)而對(duì)手勢(shì)加以識(shí)別。
基于視覺的手勢(shì)識(shí)別分類
基于視覺的手勢(shì)識(shí)別技術(shù)的發(fā)展是一個(gè)從二維到三維的過(guò)程。早期的手勢(shì)識(shí)別是基于二維彩色圖像的識(shí)別技術(shù),就是指通過(guò)普通攝像頭拍出嘲后,得到二維的靜態(tài)圖像,然后再通過(guò)計(jì)算機(jī)圖形算法進(jìn)行圖像中內(nèi)容的識(shí)別。隨著攝像頭和傳感器技術(shù)的發(fā)展,可以捕捉到手勢(shì)的深度信息,三維的手勢(shì)識(shí)別技術(shù)就可以識(shí)別各種手型、手勢(shì)和動(dòng)作。
二維手型識(shí)別
二維手型識(shí)別,也稱靜態(tài)二維手勢(shì)識(shí)別,識(shí)別的是手勢(shì)中最簡(jiǎn)單的一類。只能識(shí)別出幾個(gè)靜態(tài)的手勢(shì)動(dòng)作,比如握拳或者五指張開。
這種技術(shù)只能識(shí)別手勢(shì)的“狀態(tài)”,而不能感知手勢(shì)的“持續(xù)變化”。說(shuō)到底是一種模式匹配技術(shù),通過(guò)計(jì)算機(jī)視覺算法分析圖像,和預(yù)設(shè)的圖像模式進(jìn)行比對(duì),從而理解這種手勢(shì)的含義。因此,二維手型識(shí)別技術(shù)只可以識(shí)別預(yù)設(shè)好的狀態(tài),拓展性差,控制感很弱,用戶只能實(shí)現(xiàn)最基礎(chǔ)的人機(jī)交互功能。
其代表公司是被Google收購(gòu)的Flutter。使用他家的軟件之后,用戶可以用幾個(gè)手型來(lái)控制播放器。
Flutter軟件的工作機(jī)制
二維手勢(shì)識(shí)別
二維手勢(shì)識(shí)別,仍不含深度信息,停留在二維的層面上。這種技術(shù)比起二維手型識(shí)別來(lái)說(shuō)稍復(fù)雜一些,不僅可以識(shí)別手型,還可以識(shí)別一些簡(jiǎn)單的二維手勢(shì)動(dòng)作,比如對(duì)著攝像頭揮揮手。
二維手勢(shì)識(shí)別擁有了動(dòng)態(tài)的特征,可以追蹤手勢(shì)的運(yùn)動(dòng),進(jìn)而識(shí)別將手勢(shì)和手部運(yùn)動(dòng)結(jié)合在一起的復(fù)雜動(dòng)作。這種技術(shù)雖然在硬件要求上和二維手型識(shí)別并無(wú)區(qū)別,但是得益于更加先進(jìn)的計(jì)算機(jī)視覺算法,可以獲得更加豐富的人機(jī)交互內(nèi)容。在使用體驗(yàn)上也提高了一個(gè)檔次,從純粹的狀態(tài)控制,變成了比較豐富的平面控制。
其代表公司是來(lái)自以色列的PointGrab,EyeSight和ExtremeReality。
PointGrab公司手勢(shì)識(shí)別軟件的智能家居
三維手勢(shì)識(shí)別
相比較二維手勢(shì)識(shí)別,三維手勢(shì)識(shí)別增加了一個(gè)Z軸的信息,它可以識(shí)別各種手型、手勢(shì)和動(dòng)作。這種包含一定深度信息的手勢(shì)識(shí)別,需要特別的硬件來(lái)實(shí)現(xiàn)。常見的有通過(guò)傳感器和光學(xué)攝像頭來(lái)完成。
目前主要有3種硬件實(shí)現(xiàn)方式,加上先進(jìn)的計(jì)算機(jī)視覺軟件算法就可以實(shí)現(xiàn)三維手勢(shì)識(shí)別了。
結(jié)構(gòu)光(Structure Light)
這種技術(shù)的基本原理是,通過(guò)激光的折射以及算法計(jì)算出物體的位置和深度信息,進(jìn)而復(fù)原整個(gè)三維空間。不過(guò)由于依賴折射光的落點(diǎn)位移來(lái)計(jì)算位置,這種技術(shù)不能計(jì)算出 的深度信息,對(duì)識(shí)別的距離也有嚴(yán)格的要求。
結(jié)構(gòu)光測(cè)量原理
以PrimeSense的Kinect一代的結(jié)構(gòu)光技術(shù)為例,在太近的距離上,折射導(dǎo)致的位移尚不明顯,使用該技術(shù)就不能太 的計(jì)算出深度信息,所以1米到4米是其 應(yīng)用范圍。
光飛時(shí)間(Time of Flight)
光飛時(shí)間的原理在于:加載一個(gè)發(fā)光元件,通過(guò)CMOS傳感器來(lái)捕捉計(jì)算光子的飛行時(shí)間,根據(jù)光子飛行時(shí)間推算出光子飛行的距離,也就得到了物體的深度信息。就計(jì)算上而言,光飛時(shí)間是三維手勢(shì)識(shí)別中最簡(jiǎn)單的,不需要任何計(jì)算機(jī)視覺方面的計(jì)算。
光飛時(shí)間測(cè)距方法
SoftKinetic公司為Intel提供帶手勢(shì)識(shí)別功能的三維攝像頭。同時(shí),這一硬件技術(shù)也是微軟新一代Kinect所使用的。
Intel實(shí)感攝像頭可識(shí)別三維手勢(shì)
多角成像(Multi-camera)
該技術(shù)使用兩個(gè)或者兩個(gè)以上的攝像頭同時(shí)采集圖像,通過(guò)比對(duì)這些不同攝像頭在同一時(shí)刻獲得的圖像的差別,使用算法來(lái)計(jì)算深度信息,從而多角三維成像。
基于雙攝像頭的手勢(shì)識(shí)別
多角成像是三維手勢(shì)識(shí)別技術(shù)中硬件要求 ,但也是最難實(shí)現(xiàn)的。多角成像不需要任何額外的特殊設(shè)備,完全依賴于計(jì)算機(jī)視覺算法來(lái)匹配兩張圖片里的相同目標(biāo)。相比于結(jié)構(gòu)光或者光飛時(shí)間這兩種技術(shù)成本高、功耗大的缺點(diǎn),多角成像能提供“價(jià)廉物美”的三維手勢(shì)識(shí)別效果。
該技術(shù)的代表產(chǎn)品是Leap Motion公司的同名產(chǎn)品和Usens公司的Fingo。
手勢(shì)識(shí)別作為人機(jī)交互的重要組成部分起著至關(guān)重要的作用。目前手勢(shì)識(shí)別仍有一系列問(wèn)題,如受復(fù)雜環(huán)境因素制約等,亟待解決。相信隨著計(jì)算視覺技術(shù)的全面發(fā)展,手勢(shì)識(shí)別必然向更自然和靈活的方向發(fā)展,未來(lái)的人機(jī)交互也將更加自然、更加融合。
投稿郵箱:chuanbeiol@163.com 詳情請(qǐng)?jiān)L問(wèn)川北在線:http://sanmuled.cn/