前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的計算機立體視覺技術主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:雙目視覺;匹配算法;計算機視覺;立體匹配;相位一致性
1.計算機視覺系統分析研究
1.1計算機視覺技術及雙目立體視覺
計算機視覺是通過計算機技術實現對視覺信息處理的整個過程,是一門新的學科。視覺是人們認知事物的重要途徑,視覺是人們對視覺信息獲取、處理和存儲的過程。隨著計算機技術的發展,信號處理技術的應用,人們通過照相機來把實際的事物拍攝下來轉變為數字信息,并通過計算機信號處理技術隊獲取的視覺信號進行處理。計算機視覺技術對圖像的處理分為獲取圖像、特征抽象選取、事物識別及分類和對三維信息的理解。獲取圖像主要是通過攝像機和紅外線等技術對周圍視覺事物進行獲取,并通過計算得到和真實事物相應的二維圖像,二維圖像主要是數字圖像。計算機視覺系統的最基本的功能是數字圖像的獲取。可以看出計算機視覺研究最基本內容是三維場景距離信息的獲取。在計算機被動測量距離方法中,有一種重要的距離感知技術叫作雙目立體視覺。雙目立體視覺技術是其他計算機視覺技術無法取代的一種技術,對雙目立體視覺技術的研究在計算機視覺技術和工程應用方面都是非常重要的。
1.2計算機視覺理論框架
第一個視覺系統理論框架的提出是以信息處理為基礎,綜合了圖像處理和神經生理學等研究內容而建立的。這個視覺系統理論框架是計算機視覺系統的基本框架,與計算機視覺技術有著密切的關系。視覺系統的研究是以信息處理為基礎的,從理論層次、算法層次和硬件層次3個層次進行研究。計算機理論層次主要是表達系統各個部分計算的目的和方法,對視覺系統的輸入和輸出進行規定,輸入作為二維圖像,輸出是以二維圖像為基礎建立起來的三維物體,視覺系統的目的就是對三維物體進行分析和識別,通過計算對二維物置和形狀進行重新建立。算法層次對計算機規定的目標進行計算,算法和計算機表達有關,不同的表達可以通過不同的算法進行實現,在計算機理論的層次上,算法和表達比計算機理論的層次要低。硬件層次是通過硬件來實現算法的一種表達方法。計算機理論層次在計算機信息處理中時最高的層次,取決于計算機的本質是解決計算機的自身問題,不是取決于計算問題的計算機硬件。要更好地對計算機系統和框架進行理解最好的方法就是要區分3個不同的層次,計算機理論的含義和主要解決的問題是計算機的目的,表達算法含義和主要解決的問題是實現計算理論的方法和輸入輸出的表達,硬件的實現的含義和主要解決的問題是如何在物理上對表達和算法進行實現。計算機視覺處理的可以分為3個階段,對視覺信息的處理過程從最初的二維圖像的原始數據,到三維環境的表達。第一階段基元圖的構成,基元圖是用來表示二維圖像中的重要信息,主要是圖像中亮度變化位置及其幾何分布和組織結構,圖像中每點的亮度值包括零交叉、斑點、端點和不連續點、邊緣等。第二階段2.5維圖描述,在以觀測者為中心的坐標中,表示可見表面的方向、深度值和不連續的輪廓,基元是局部表面朝向離觀測者的距離深度上的不連續點表面朝向的不連續點。第三階段三維模型表示,在以物體為中心的坐標系中,有由體積單元和面積單元構成的模塊化多層次表示,描述形狀及其空間組織形式,分層次組成若干三維模型,每個三維模型都是在幾個軸線空間的基礎上構成的,所有體積單元或面積形狀基元都附著在軸線上。視覺理論框架圖如圖1所示。
2.基于計算機的視覺立體匹配算法研究
視覺立體匹配算法是基于人類視覺系統的一種計算機算法。立體匹配算法作為計算機立體視覺問題研究的重點,快速地實現圖像對應點的匹配來獲得視差圖是當今研究的熱點問題。立體視覺匹配算法根據基元匹配的不同可以分為相位匹配、區域匹配和特征匹配3種,其中區域匹配算法可以減少計算負擔,區域匹配算法實時性高,應用前景廣闊。計算機立體視覺通過對人的雙眼進行模仿,在雙眼的立體感知中獲得信息,從攝像機拍攝的圖像中獲取物體的三維深度信息,這就是深度圖的獲取,把深度圖經過處理得到三維空間信息數據,二維圖像到三維空間實現轉換。深度的獲取在雙目立體成像視覺系統中分為兩步,首先在雙目立體圖像與圖像之間建立點對點的對象關系,雙目立體視覺算法研究的重點問題是解決對應點之間的匹配問題。其次以對應點之間的視差為依據對深度值進行計算。雙目成像是獲取同一場景中兩幅不同的圖像,兩個單目成像模型構成一個雙目成像模型。雙目成像示意圖如圖2所示。系統的基線B是兩個鏡頭中心的連接線,空間點w(z,y,z)作為世界坐標的值由(x1,y1)與(x2,y2)進行確定,如果攝像機的坐標位置和空間點w世界坐標的位置重合,圖像平面和世界坐標軸xY的平面就是平行的。如果兩個攝像機在坐標系統中的原點不同但是它們的光軸平行,那么雙目成像計算人們可以看圖3所示,圖3表示的是兩個攝像頭連線在平臺xY的示意。
立體視覺的成像過程是成像的逆過程,具有一定的不確定性。大量的數據信息在從三維影像向二維圖像進行投影的過程會出現丟失的現象,所以視覺系統要通過自然的約束條件才能保證獲取正確的解。這些約束條件在減少匹配的計算量方面可以提供有利的幫助。針對基于區域匹配快速算法,還可以應用基于視差梯度的匹配算法,這種匹配算法應用較大的搜索范圍在邊緣的特征點上進行搜索,采用視差梯度在非邊緣區減少搜索范圍。應用計算機視覺立體匹配算法可以減少成像匹配時間,大大提高了工作效率。計算機立體匹配算法征點的提取是算法的關鍵問題,今后的研究方向重點是對有效特征點提取方法的研究。
關鍵詞:雙目立體視覺計算機視覺立體匹配攝像機標定特征提取
雙目立體視覺是計算機視覺的一個重要分支,即由不同位置的兩臺或者一臺攝像機(CCD)經過移動或旋轉拍攝同一幅場景,通過計算空間點在兩幅國像中的視差,獲得該點的三維坐標值。80年代美國麻省理工學院人工智能實驗室的Marr提出了一種視覺計算理論并應用在雙睛匹配上,使兩張有視差的平面圖產生在深度的立體圖形,奠定了雙目立體視覺發展理論基礎。相比其他類的體視方法,如透鏡板三維成像、投影式三維顯示、全息照相術等,雙目本視直接模擬人類雙眼處理景物的方式,可靠簡便,在許多領域均極具應用價值,如微操作系統的位姿檢測與控制、機器人導航與航測、三維測量學及虛擬現實等。
1雙目體視的技術特點
雙目標視技術的實現可分為以下步驟:圖像獲取、攝像機標定、特征提取、圖像匹配和三維重建,下面依次介紹各個步驟的實現方法和技術特點。
1.1圖像獲取
雙目體視的圖像獲取是由不同位置的兩臺或者一臺攝像機(CCD)經過移動或旋轉拍攝同一幅場景,獲取立體圖像對。其針孔模型如圖1。假定攝像機C1與C2的角距和內部參數都相等,兩攝像機的光軸互相平行,二維成像平面X1O1Y1和X2O2Y2重合,P1與P2分別是空間點P在C1與C2上的成像點。但一般情況下,針孔模型兩個攝像機的內部參數不可能完成相同,攝像機安裝時無法看到光軸和成像平面,故實際中難以應用。
上海交大在理論上對會攝式雙目體視系統的測量精度與系統結構參數之間的關系作了詳盡分析,并通過試驗指出,對某一特定點進行三角測量。該點測量誤差與兩CCD光軸夾角是一復雜的函數關系;若兩攝像頭光軸夾角一定,則被測坐標與攝像頭坐標系之間距離越大,測量得到點距離的誤差就越大。在滿足測量范圍的前提下,應選擇兩CCD之間夾角在50℃~80℃之間。
1.2攝像機的標定
對雙目體視而言,CCD攝像機、數碼相機是利用計算機技術對物理世界進行重建前的基本測量工具,對它們的標定是實現立體視覺基本而又關鍵的一步。通常先采用單攝像機的標定方法,分別得到兩個攝像機的內、外參數;再通過同一世界坐標中的一組定標點來建立兩個攝像機之間的位置關系。目前常用的單攝像機標定方法主要有:
(1)攝影測量學的傳統設備標定法。利用至少17個參數描述攝像機與三維物體空間的結束關系,計算量非常大。
(2)直接線性變換性。涉及的參數少、便于計算。
(3)透視變換短陣法。從透視變換的角度來建立攝像機的成像模型,無需初始值,可進行實時計算。
(4)相機標定的兩步法。首先采用透視短陣變換的方法求解線性系統的攝像機參數,再以求得的參數為初始值,考慮畸變因素,利用最優化方法求得非線性解,標定精度較高。
(5)雙平面標定法。
在雙攝像機標定中,需要精確的外部參數。由于結構配置很難準確,兩個攝像機的距離和視角受到限制,一般都需要至少6個以上(建議取10個以上)的已知世界坐標點,才能得到比較滿意的參數矩陣,所以實際測量過程不但復雜,而且效果并不一定理想,大大地限制了其應用范圍。此外雙攝像機標定還需考慮鏡頭的非線性校正、測量范圍和精度的問題,目前戶外的應用還有少。
上海大學通信與信息工程學院提出了基于神經網絡的雙目立體視覺攝像機標定方法。首先對攝像機進行線性標定,然后通過網絡訓練建立起三維空間點位置補償的多層前饋神經網絡模型。此方法對雙目立體視覺攝像機的標定具有較好的通用性,但是精確測量控制點的世界坐標和圖像坐標是一項嚴格的工作。因此神經網絡中訓練樣本集的獲得非常困難。
1.3特征點提取
立體像對中需要撮的特征點應滿足以下要求:與傳感器類型及抽取特征所用技術等相適應;具有足夠的魯棒性和一致性。需要說明的是:在進行特征點像的坐標提取前,需對獲取的圖像進行預處理。因為在圖像獲取過程中,存在一系列的噪聲源,通過此處理可顯著改進圖像質量,使圖像征點更加突出。
1.4立體匹配
立體匹配是雙目體視中最關系、困難的一步。與普通的圖像配準不同,立體像對之間的差異是由攝像時觀察點的不同引起的,而不是由其它如景物本身的變化、運動所引起的。根據匹配基元的不同,立體匹配可分為區域匹配、特征匹配和相位匹配三大類。
區域匹配算法的實質是利用局部窗口之間灰度信息的相關程度,它在變化平緩且細節豐富的地方可以達到較高的精度。但該算法的匹配窗大小難以選擇,通常借助于窗口形狀技術來改善視差不連續處的匹配;其次是計算量大、速度慢,采取由粗至精分級匹配策略能大大減少搜索空間的大小,與匹配窗大小無關的互相關運算能顯著提高運算速度。
特片匹配不直接依賴于灰度,具有較強的抗干擾性,計算量小,速度快。但也同樣存一些不足:特征在圖像中的稀疏性決定特征匹配只能得到稀疏的視差場;特征的撮和定位過程直接影響匹配結果的精確度。改善辦法是將特征匹配的魯棒性和區域匹配的致密性充分結合,利用對高頻噪聲不敏感的模型來提取和定位特征。
相位匹配是近二十年才發展起來的一類匹配算法。相位作為匹配基元,本身反映信號的結構信息,對圖像的高頻噪聲有很好的抑制作用,適于并行處理,能獲得亞像素級精度的致密視差。但存在相位奇點和相位卷繞的問題,需加入自適應濾波器解決。
1.5三維重建
在得到空間任一點在兩個圖像中的對應坐標和兩攝像機參數矩陣的條件下,即可進行空間點的重建。通過建立以該點的世界坐標為未知數的4個線性方程,可以用最小二乘法求解得該點的世界坐標。實際重建通常采用外極線結束法。空間瞇、兩攝像機的光心這三點組成的平面分別與兩個成像平面的交線稱為該空間點在這兩個成像平面中的極線。一旦兩攝像機的內外參數確定,就可通過兩個成像平面上的極線的約束關系建立對應點之間的關系,并由此聯立方程,求得圖像點的世界坐標值。對圖像的全像素的三維重建目前僅能針對某一具體目標,計算量大且效果不明顯。
2雙目體視的最新應用
2.1國外研究動態
雙目體視目前主要應用于四個領域:機器人導航、微操作系統的參數檢測、三維測量和虛擬現實。
日本大阪大學自適應機械系統研究院研制了一種自適應雙目視覺伺服系統,利用雙目體視的原理,如每幅圖像中相對靜止的三個標志為參考,實時計算目標圖像的雅可比短陣,從而預測出目標下一步運動方向,實現了對動方式未知的目標的自適應跟蹤。該系統僅要求兩幅圖像中都有靜止的參考標志,無需攝像機參數。而傳統的視覺跟蹤伺服系統需事先知道攝像機的運動、光學等參數和目標的運動方式。
日本奈良科技大學信息科學學院提出了一種基于雙目立體視覺的增強現實系統(AR)注冊方法,通過動態修正特征點的位置提高注冊精度。該系統將單攝像機注冊(MR)與立體視覺注冊(SR)相結合,利用MR和三個標志點算出特征點在每個圖像上的二維坐標和誤差,利用SR和圖像對計算出特征點的三維位置總誤差,反復修正特征點在圖像對上的二維坐標,直至三維總誤差小于某個閾值。該方法比僅使用MR或SR方法大大提高了AR系統注冊深度和精度。實驗結果如圖2,白板上三角開的三頂點被作為單攝像機標定的特征點,三個三角形上的模型為虛擬場景,烏龜是真實場景,可見基本上難以區分出虛擬場景(恐龍)和現實場景(烏龜)。
日本東京大學將實時雙目立體視覺和機器人整體姿態信息集成,開發了仿真機器人動態行長導航系統。該系統實現分兩個步驟:首先,利用平面分割算法分離所拍攝圖像對中的地面與障礙物,再結合機器人身體姿態的信息,將圖像從攝像機的二維平面坐標系轉換到描述軀體姿態的世界坐標系,建立機器人周圍區域的地圖;基次根據實時建立的地圖進行障礙物檢測,從而確定機器人的行走方向。
日本岡山大學使用立體顯微鏡、兩個CCD攝像頭、微操作器等研制了使用立體顯微鏡控制微操作器的視覺反饋系統,用于對細胞進行操作,對鐘子進行基因注射和微裝配等。
麻省理工學院計算機系統提出了一種新的用于智能交通工具的傳感器融合方式,由雷達系統提供目標深度的大致范圍,利用雙目立體視覺提供粗略的目標深度信息,結合改進的圖像分割算法,能夠在高速環境下對視頻圖像中的目標位置進行分割,而傳統的目標分割算法難以在高速實時環境中得到令人滿意的結果,系統框圖如圖3。
華盛頓大學與微軟公司合作為火星衛星“探測者”號研制了寬基線立體視覺系統,使“探測者”號能夠在火星上對其即將跨越的幾千米內的地形進行精確的定位玫導航。系統使用同一個攝像機在“探測者”的不同位置上拍攝圖像對,拍攝間距越大,基線越寬,能觀測到越遠的地貌。系統采用非線性優化得到兩次拍攝圖像時攝像機的相對準確的位置,利用魯棒性強的最大似然概率法結合高效的立體搜索進行圖像匹配,得到亞像素精度的視差,并根據此視差計算圖像對中各點的三維坐標。相比傳統的體視系統,能夠更精確地繪制“探測者”號周圍的地貌和以更高的精度觀測到更遠的地形。
2.2國內研究動態
浙江大學機械系統完全利用透視成像原理,采用雙目體視方法實現了對多自由度機械裝置的動態、精確位姿檢測,僅需從兩幅對應圖像中抽取必要的特征點的三維坐標,信息量少,處理速度快,尤其適于動態情況。與手眼系統相比,被測物的運動對攝像機沒有影響,且不需知道被測物的運動先驗知識和限制條件,有利于提高檢測精度。
東南大學電子工程系基于雙目立體視覺,提出了一種灰度相關多峰值視差絕對值極小化立體匹配新方法,可對三維不規則物體(偏轉線圈)的三維空間坐標進行非接觸精密測量。
哈工大采用異構雙目活動視覺系統實現了全自主足球機器人導航。將一個固定攝像機和一個可以水平旋轉的攝像機,分別安裝在機器人的頂部和中下部,可以同時監視不同方位視點,體現出比人類視覺優越的一面。通過合理的資源分配及協調機制,使機器人在視野范圍、測跟精度及處理速度方面達到最佳匹配。雙目協調技術可使機器人同時捕捉多個有效目標,觀測相遇目標時通過數據融合,也可提高測量精度。在實際比賽中其他傳感器失效的情況下,僅僅依靠雙目協調仍然可以實現全自主足球機器人導航。
火星863計劃課題“人體三維尺寸的非接觸測量”,采用“雙視點投影光柵三維測量”原理,由雙攝像機獲取圖像對,通過計算機進行圖像數據處理,不僅可以獲取服裝設計所需的特征尺寸,還可根據需要獲取人體圖像上任意一點的三維坐標。該系統已通過中國人民總后勤部軍需部鑒定。可達到的技術指標為:數據采集時間小于5s/人;提供身高、胸圍、腰圍、臀圍等圍度的測量精度不低于1.0cm。
3雙目體視的發展方向
就又目立體視覺技術的發展現狀而言,要構造出類似于人眼的通用雙目立體視覺系統,還有很長的路要走,進一步的研究方向可歸納如下:
(1)如何建立更有效的雙目體視模型,能更充分地反映立體視覺不確定性的本質屬性,為匹配提供更多的約束信息,降低立體匹配的難度。
(2)探索新的適用于全面立體視覺的計算理論和匹配策略,選擇有效的匹配準則和算法結構,以解決存在灰度失真、幾何畸變(透視、旋轉、縮放等)、噪聲干擾、特殊結構(平坦匹域、重復相似結構等)及遮掩景物的匹配問題;
(3)算法向并行化發展,提高速度,減少運算量,增強系統的實用性。
關鍵詞:雙目立體視覺;立體匹配;光流
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1674-7712 (2013) 20-0000-02
一、引言
雙目立體視覺在機器人導航、微操作系統的參數檢測、三維測量和虛擬現實等領域都有廣泛的應用,它是計算機視覺的一個重要分支。它主要是由不同位置的左右兩個攝像機同時獲得同一場景的兩幅圖,通過計算空間點在兩幅圖像中的視差,獲得該點的三維信息。立體匹配算法的目的就是找出左右圖像對中的匹配點,進而獲得距離信息,其基本原理就是從兩個視點同時觀察同一景物以獲取立體像對,并匹配出相應像點,從而計算出視差并獲得三維信息。
考慮到光流這種運動速度,不僅包含了二維瞬時速度場,還可以反映可見點的三維速度矢量在成像表面得投影,提出了一種融合光流的立體匹配算法。該方法在基于區域相關匹配的基礎上,求取左右運動目標的光流,用光流作為一種外加限制條件進行立體匹配。首先分別求取左右圖像序列中垂直和水平方向上的光流,然后通過對右圖像序列中候選點的光流的計算與左圖像序列中的種子點進行匹配,進而提高了匹配的精度和準確度;而且該算法只選用邊緣點進行匹配,這樣簡化了運算,提高了算法的運行速度。
二、求取光流
三、實驗
圖1顯示了在連續時間幀里獲得的兩對立體圖像對,圖2顯示了在50幀時邊緣檢測結果。然后用這兩幅圖像中的邊緣點作為種子點在第二個立體圖像對(也就是下一幀)中尋找相關點,這樣就可以在連續的圖像序列中進行相關性研究。圖3中給出了光流的計算,把每個邊緣點的光流都分解為水平(X)和垂直(Y)方向的位移,其中(a),(b)圖顯示了左右圖像的水平位移,而(c),(d)顯示了垂直位移。
采用融入光流的匹配方法,不僅測量了互相關系數,還測量了待估計的兩點水平及垂直位移,這樣就可以避免光照和攝像機本身移動的問題。視差圖反應的是目標離攝像機的遠近,離攝像機越近,視差越大,表現在灰度圖中越亮,反之,離攝像機越遠,視差越小,表現在灰度圖中越暗。圖4中的(a),(b)分別為沒有融合光流和融合光流之后的視差圖,從圖中可以明顯的發現,沒有融合的視差圖中有很多地方出現誤匹配,而融合光流之后的視差圖更為清晰,消除了偽匹配點。
四、總結
本文通過對傳統匹配算法的分析,提出了一種融合光流的立體匹配算法,該算法是在區域相關立體匹配的基礎上附加上了光流作為限制條件,使得匹配更為準確迅速。實驗結果表明了該算法的有效性,不僅縮小了匹配搜索空間,提高了匹配的速度與準確度,而且可以有效的克服光照等外部環境的干擾,消除誤匹配點。
參考文獻:
[1]劉金頌.雙目立體視覺中的攝像機標定技術研究[J].計算機工程與應用,2008,44(6).
[2]梁元月.基于雙目立體視覺的工件識別定位方法研究[D].西安理工大學,2008.
[3]白明,莊嚴,王偉.雙目立體匹配算法研究與進展[J].控制與決策,2008.
關鍵詞:手勢識別;3D視覺;DSP
DOI: 10.3969/j.issn.1005-5517.2012.9.003
隨著觸摸屏技術的不斷推廣,用戶已經適應并逐漸熟悉了與機器的互動。現在,人機互動技術已邁上了更高的臺階,進入了手勢識別時代,不過這也并不是一帆風順的。手勢識別現已在娛樂及游戲市場出現,然而這種技術將對我們的日常生活產生怎樣的影響呢?不妨假想一下,有人坐在沙發上,只需一揮手就能操控燈光和電視,或者汽車自動檢測附近是否有行人。隨著手勢識別技術支持人機互動的不斷深入發展,這些及其它功能將很快得以實現。手勢識別技術長期以來一直采用 2D 視覺進行研究,但隨著 3D 傳感器技術的出現,其應用將日益廣泛并多樣化。
2D視覺的局限
計算機視覺技術一直在努力向堪比人類智慧的智能方向發展,以更好地了解場景。如果不能解釋周圍的世界,計算機就無法與人實現自然交流對接。計算機在了解周圍場景方面面臨的主要問題包括細分、對象表征、機器學習與識別等。由于 2D 場景表征本身存在局限性,手勢識別系統必須應用其它各種提示信息才能得到包含更有用信息的更好結果。在可能性信息包含整個身體跟蹤時,盡管將多種提示信息整合在一起,單靠 2D 表征也很難獲得超越手勢識別的任何信息。
“z”(深度)創新
向 3D 視覺及手勢識別發展過程中的挑戰一直都是第三坐標 —z 軸坐標的獲取。人眼能看到 3D 對象,能自然識別 (x,y,z) 坐標軸,從而能夠看到一切事物,而后大腦能夠以 3D 影像的形式表達這些坐標軸。機器無法獲得 3D 視覺的一大挑戰就在于影像分析技術。目前有 3 種應對 3D 采集問題的常見解決方案,每種方案都有其獨特的功能與特定的用途。這三種方案分別為:立體視覺、結構光模式以及渡越時間 (TOF)。有了這些技術提供的 3D 影像輸出,就可實現手勢識別技術。
立體視覺
立體視覺系統可能是最為人所熟知的 3D 采集系統。該系統使用 2 個攝像機獲得左右立體影像,該影像有些輕微偏移,與人眼同序。計算機通過比較這兩個影像,就可獲得對應于影像中物移的不同影像。該不同影像或地圖可以是彩色的,也可以為灰階,具體取決于特定系統的需求。立體視覺系統目前通常用于 3D 電影,能帶來低成本而又震撼人心的娛樂體驗。
結構光模式
結構光模式可用來測量或掃描3D 對象。在該類系統中,可在整個對象上照射結構光模式,光模式可使用激光照明干擾創建,也可使用投影影像創建。使用類似于立體視覺系統的攝像機,有助于結構光模式系統獲得對象的 3D 坐標。此外,單個 2D 攝像機系統也可用來測量任何單條的移位,然后通過軟件分析獲得坐標。無論使用什么系統,都可使用坐標來創建對象外形的數字 3D 圖形。
渡越時間 (TOF)
渡越時間 (TOF) 傳感器是一種相對較新的深度信息系統。TOF 系統是一種光雷達 (LIDAR) 系統,同樣可從發射極向對象發射光脈沖。接收器則可通過計算光脈沖從發射器到對象,再以像素格式返回到接收器的運行時間來確定被測量對象的距離。
TOF 系統不是掃描儀,因為其不支持點對點測量。TOF 系統可同時獲得整個場景,確定 3D 范圍影像。利用測量得到的對象坐標可創建 3D 影像,并可用于機器人、制造、醫療技術以及數碼攝影等領域的設備控制。
實施 TOF 系統所需的半導體器件現已開始供貨。目前的器件支持實現 TOF 系統所需的處理性能、速度與帶寬。
3D 視覺技術的比較
不同的應用或市場適用于不同的3D 視覺技術。圖 1 顯示了不同 3D 視覺技術的比較及其相關響應時間、軟件復雜性、成本及準確性的相對優缺點。
立體視覺技術需要極高的軟件復雜性才能獲得高精度3D 深度數據,其通常可通過數字信號處理器(DSP) 或多內核標量處理器進行處理。立體視覺系統支持小巧的外形與低成本,是移動電話等消費類設備的良好選擇。不過,立體視覺系統的精確度與響應時間不及其它技術,因此對于制造質量控制系統等要求高精度的系統來說不太理想。
結構光技術是包括 3D 計算機輔助設計 (CAD) 系統在內的 3D 對象掃描的良好解決方案。這些系統的相關軟件復雜性可通過硬接線邏輯解決(如 ASIC 與 FPGA 等),其需要高昂的開發及材料成本。此外,該計算復雜性還可導致較慢的響應時間。在實現微觀層面上的高精度方面,結構光模式技術優于其它 3D 視覺技術。
TOF 系統取得了性能與成本的平衡,非常適用于需要快速響應時間的制造與消費類電子設備等應用領域的設備控制。TOF 系統軟件復雜程度通常較低,不過這些系統需要昂貴的照明部件(LED、激光二極管)以及高速接口相關部件(快速 ADC、快速串行/并行接口、快速 PWM 驅動器),這將提升材料成本。圖 1 顯示了這三種 3D 傳感器技術的對比情況。
圖1 3D 視覺技術對比
“z”(深度)如何影響人機界面
隨著“z”坐標的加入,顯示與影像更接近自然,更貼近人類。人們在顯示屏上能看到人眼從周邊環境所看到的逼真事物。增加這第三維坐標改變了可使用的顯示與應用類型。
顯示
立體顯示屏
立體顯示屏通常需要用戶佩戴3D 眼鏡。這種顯示屏為左右眼提供不同的影像,兩眼看到的影像不同,讓大腦誤以為看到了 3D 影像。這種顯示屏目前廣泛用于眾多 3D 電視與3D 電影院。
多視點顯示屏
多視點顯視屏不同于立體顯示屏,無需佩戴特殊眼鏡。這些顯示屏可同時投射多個影像,每個影像稍微有些位移,形成適當的角度,讓用戶可在每個視點角度看到相同對象的不同投射影像。這些顯示屏支持全息攝影效果,在不久的將來將實現全新的3D 體驗。
檢測與應用
處理并顯示“z”坐標的功能將實現全新的應用,其中包括游戲、制造控制、安全、互動數字標牌、遠程醫療、汽車以及機器人視覺等。圖 2是身體骨架與深度映射傳感技術所支持的某些應用領域視圖。
人類手勢識別(消費類)
人類手勢識別是一項深受歡迎的新技術,可為游戲、消費類以及移動產品帶來新的輸入方式。用戶能夠以極其自然、直觀的方法與設備進行互動,從而可促進產品推廣。這些人類手勢識別產品包括從 160 x 120 像素到640 x 480 像素,30 到60 fps 的各種分辨率的3D 數據。原始數據到z深度解析、雙手跟蹤以及全身跟蹤等軟件模塊需要數字信號處理器 (DSP)對 3D 數據進行高效快速處理,才能實現實時游戲與跟蹤。
工業
工業與制造傳感器等大多數 3D視覺工業應用都采用至少 1 像素至數100k 像素的影像系統。3D 影像可使用 DSP 技術進行控制分析,確定制造瑕疵或者從部件集中選擇正確的部件。
互動數字標牌(精確定位的市場營銷工具)
每天我們都在遭受廣告的轟炸,無論是看電視、開車還是在機場登機都是如此。有了互動數字標牌,企業就可通過精確定位的市場營銷工具提供適合每位消費者的內容。例如,有人走過一個數字標牌,標牌上可能就會馬上顯示額外的消息確認該客戶。如果客戶停下來閱讀信息,該標牌可能會理解為客戶對產品感興趣,并提供更有針對性的消息。麥克風則將讓廣告牌檢測并識別關鍵短語,進一步精確定位所提供的消息。
這些互動數字標牌系統將需要3D 傳感器進行全面的身體跟蹤,2D傳感器進行面部識別,并需要麥克風進行語音識別。這些系統的軟件將運行在更高級的 DSP 及通用處理器(GPP) 上,不但可實現面部識別、全面的身體跟蹤以及 Flash 媒體播放器等應用,而且還可提供諸如 MPEG4視頻解碼等功能。
醫療(無故障虛擬/遠程護理)
3D 視覺將為醫療領域帶來前所未有的全新應用。醫生無需跟患者共處一室就可問診。遠程虛擬護理采用高精度 3D 傳感器支持的醫學機器人視覺系統,可確保為每一位患者提供最優質的醫療護理,無論他們身處何方。
汽車(安全)
近期,汽車應用在交通信號、車道以及障礙檢測方面使用 2D 傳感器技術取得了長足發展。隨著 3D 傳感技術的到來,3D 傳感器的“z”數據將大幅提升場景分析的可靠性。汽車通過使用 3D 視覺系統,現已有了預防事故的新途徑,無論白天還是夜間都非常適用。采用 3D 傳感器,車輛能可靠檢測并解讀周邊環境,確定對象是否對車輛及車內乘客構成安全威脅。這些系統要求軟硬件支持 3D 視覺系統,并需要密集型 DSP 及 GPP處理性能在極短時間內解讀 3D 圖形,避免事故。
視頻會議
視覺會議技術經過多年發展,已經從間斷脫節傳輸影像發展成當前的高清系統。未來增強型視頻會議將充分發揮 3D 傳感器的優勢,提供更真實、更具互動性的視頻會議體驗。該增強型視頻會議系統具有集成型2D 傳感器以及 3D 傳感器及麥克風組合,將能夠與其它增強型系統連接,實現高質量的視頻處理、面部識別、3D 影像、噪聲消除以及內容播放器(Flash 等)等應用。隨著這種密集型音視頻處理需求的出現,需要具備最佳性能及外設組合的 DSP。
圖2 3D 視覺正在為各個市場帶來全新的應用
圖3 2D 與 3D 攝像機系統的數據路徑
技術處理步驟
對許多應用而言,需要同時具備 2D 和 3D 攝像機系統才能充分實現應用技術。圖 3 顯示了這些系統的基本數據路徑。從傳感器獲取數據,然后進行視覺分析,這并不像數據路徑示意圖看上去那么簡單。具體而言,TOF 傳感器需要的帶寬相當于 2D 傳感器的 16 倍之多,這可導致高輸入/輸出 (I/O) 問題。另一個瓶頸則存在于原始 3D 數據向 3D 點云轉換的處理過程中。通過正確的軟硬件組合解決這些問題,對于手勢識別及 3D 的成功應用至關重要。當前數據路徑可通過 DSP/GPP 處理器組合加上分立式模擬組件及軟件庫實現。
3D 視覺嵌入式系統的挑戰
輸入挑戰
如前所述,輸入帶寬限制對 3D視覺嵌入式系統提出了極大的挑戰。此外,輸入接口也沒有標準化。設計人員可為 2D 傳感器與通用外部存儲器接口選擇采用不同的輸入選項,其中包括串行與并行接口。在支持最佳帶寬的標準輸入接口出現之前,設計人員只能使用現有的接口。
兩種不同的處理器架構
圖 3 所示的 3D 深度映射處理可分為兩類:一是以數據為中心的視覺專用處理,二是應用上層處理。以數據為中心的視覺專用處理需要處理器架構能夠執行單指令多數據 (SIMD) 快速浮點乘法及加法運算,以及快速搜索算法。DSP 是快速可靠執行這種處理功能的完美選擇。對于應用上層處理而言,高級操作系統 (OS) 及協議棧則可提供任何應用上層所需的必要特性集。
根據兩種處理器架構要求,提供高數據速率 I/O GPP+DSP+SIMD 處理器的片上系統 (SOC) 非常適合 3D 視覺處理,其可支持必要的數據及應用上層處理。
缺乏標準中間件
3D 視覺處理領域的中間件是多種來源的眾多不同組件的整合,包括開源(如 OpenCV)與專有商業源等。商業庫主要針對身體跟蹤應用,這是一種特定的 3D 視覺應用。目前尚未開發出針對所有不同 3D 視覺應用標準化的中間件接口。
“z”(深度)之后會有什么精彩?
關鍵詞:虛擬現實技術 虛擬環境 計算機發展 新型計算機
計算機技術的不斷發展與應用方面的不斷提高使得虛擬現實技術也相應同步地快速發展。尤其是計算機的發展將趨向超高速、超小型、平行處理和智能化,量子、光子、分子和納米計算機將具有感知、思考、判斷、學習及一定的自然語言能力,使計算機進入人工智能時代。這種新型計算機將推動新一輪計算技術革命,更加帶動虛擬現實技術的快速發展,對人類社會的發展產生深遠的影響。
1 虛擬現實技術概述
虛擬現實(Virtual Reality,簡稱VR)是近年來出現的高新技術,也稱靈境技術或人工環境。該技術集成了計算機圖形(CG)技術、計算機仿真技術、人工智能、傳感技術、顯示技術、網絡并行處理等技術的最新發展成果,是一種由計算機技術輔助生成的高技術模擬系統。
虛擬現實技術的發展與應用離不開計算機技術的發展,兩者是相輔相成的關系,如果要正確認識和剖析并把握虛擬現實技術的應用與發展,就必須深入研究計算機技術的變化與發展趨勢,這樣才能有利于我們未來更好的掌握與應用虛擬現實技術。
2 計算機技術在虛擬現實技術的應用
自從1944年世界上第一臺電子計算機誕生以來,計算機技術迅猛發展,傳統計算機的性能受到挑戰,開始從基本原理上尋找計算機發展的突破口,新型計算機的研發應運而生,計算機技術的發展將趨向超高速、超小型、并行處理和智能化。專家預計虛擬現實技術也會因此得到迅速發展。尤其是三維計算機圖形學技術、采用多種功能傳感器的交互式接口技術和高清晰度顯示技術在虛擬現實的應用中起著重要作用。此外,智能化的超級計算機和新型高性能計算機不斷發展。這會更有利于虛擬現實技術方面的快速發展。虛擬現實技術通過計算機對復雜數據進行可視化操作以及實時交互的環境。與傳統的計算機人-機界面(如鍵盤、鼠標器、圖形用戶界面以及流行的Windows等)相比,虛擬現實無論在技術上還是思想上都有質的飛躍。
3 虛擬現實系統的技術特點
3.1 虛擬現實有效地建立虛擬環境主要集中在兩個方面,一是虛擬環境能夠精確表示物體的狀態模型,二是環境的可視化及渲染。
3.2 虛擬現實僅是計算機系統設置的一個近似客觀存在的環境,它是硬件、軟件和設備的有機組合。
3.3 用戶可通過自身的技能以6個自由度在這個仿真環境里進行交互操作。
3.4 虛擬現實的關鍵是傳感技術。
3.5 虛擬現實離不開視覺和聽覺的新型可感知動態數據庫技術,并需結合高速的動態數據庫檢索技術。
3.6 虛擬現實不僅是計算機圖形學或計算機成像生成的一幅畫面,更重要的是人們可以通過計算機和各種人機界面與機交互,并在精神感覺上進入環境。它需要結合人工智能,模糊邏輯和神經元技術。
4 虛擬現實硬件設備與軟件技術和計算機技術的融合
在虛擬現實系統中,硬件設備主要由3個部分組成:輸入設備、輸出設備、虛擬世界生成設備。此外系統還需要虛擬現實的相關技術。
4.1 虛擬現實的輸入設備。有關虛擬現實系統的輸入設備主要分為兩大類:一類是基于自然的交互設備,用于對虛擬世界信息的輸入;另一類是三維定位跟蹤設備,主要用于對輸入設備在三維空間中的位置進行判定,并送入虛擬現實系統中。虛擬世界與人進行自然交互的實現形式很多,有基于語音的、基于手的等多種形式,如數據手套、數據衣、三維控制器、三維掃描儀等。手是我們與外界進行物理接觸及意識表達的最主要媒介,在人機交互設備中也是如此。基于手的自然交互形式最為常見,相應的數字化設備很多,在這類產品中最為常用的就是數據手套。
4.2 虛擬現實的輸出設備。人置身于虛擬世界中,要體會到沉浸的感覺,必須讓虛擬世界能模擬人在現實世界中的多種感受,如視覺、聽覺、觸覺、力覺、痛感、味覺、嗅覺等。基于目前的技術水平,成熟和相對成熟的感知信息的產生和檢測技術僅有視覺、聽覺和觸覺(力覺)3種。感知設備的作用是將虛擬世界中各種感知信號轉變為人所能接受的多通道刺激信號,現在主要應用的有基于視覺、聽覺和力覺感知的設備,基于味覺、嗅覺等的設備有待開發研究。
4.3 虛擬現實的生成設備。在虛擬現實系統中,計算機是虛擬世界的主要生成設備,所以有人稱之為“虛擬現實引擎”,它首先創建出虛擬世界的場景,同時還必須實時響應用戶各種方式的輸入。
通常虛擬世界生成設備主要分為基于高性能個人計算機、基于高性能圖形工作站、高度并行的計算機系統和基于分布式計算機的虛擬現實系統四大類。
4.4 虛擬現實的相關技術。虛擬現實系統的目標是由計算機生成虛擬世界,用戶可以與之進行視覺、聽覺、觸覺、嗅覺、味覺等全方位的交互,并且虛擬現實系統能進行實時響應。要實現這種目標,除了需要有一些專業的硬件設備外,還必須有較多的相關技術及軟件加以保證,特別是在現階段計算機的運行速度還達不到虛擬現實系統所需要求的情況下,相關技術就顯得更加重要。虛擬現實的相關技術主要有立體視覺顯示技術、環境建模技術、真實感實時繪制技術、三維虛擬聲音的實現技術、自然交互與傳感技術等等。
4.4.1 立體視覺顯示技術。人類從客觀世界獲得的信息的80%以上來自視覺,視覺信息的獲取是人類感知外部世界、獲取信息的最主要的傳感通道,視覺通道成為多感知的虛擬現實系統中最重要的環節。
在視覺顯示技術中,實現立體顯示技術是較為復雜與關鍵的,立體視覺顯示技術是虛擬現實的重要支撐技術。
4.4.2 環境建模技術。在虛擬現實系統中,營造的虛擬環境是它的核心內容,要建立虛擬環境,首先要建模,然后在其基礎上再進行實時繪制、立體顯示,形成一個虛擬的世界。虛擬環境建模的目的在于獲取實際三維環境的三維數據,并根據其應用的需要,利用獲取的三維數據建立相應的虛擬環境模型。只有設計出反映研究對象的真實有效的模型,虛擬現實系統才有可信度。在虛擬現實系統中,環境建模應該包括有基于視覺、聽覺、觸覺、力覺、味覺等多種感覺通道的建模。但基于目前的技術水平,常見的是三維視覺建模和三維聽覺建模。而在當前應用中,環境建模一般主要是三維視覺建模,這方面的理論也較為成熟。
4.4.3 真實感實時繪制技術。要實現虛擬現實系統中的虛擬世界,僅有立體顯示技術是遠遠不夠的,虛擬現實中還有真實感與實時性的要求,也就是說虛擬世界的產生不僅需要真實的立體感,而且虛擬世界還必須實時生成,這就必須要采用真實感實時繪制技術。所謂真實感繪制是指在計算機中重現真實世界場景的過程。真實感繪制的主要任務是要模擬真實物體的物理屬性,即物體的形狀、光學性質、表面的紋理和粗糙程度,以及物體間的相對位置、遮擋關系等等。
4.4.4 三維虛擬聲音的實現技術。在虛擬現實系統中加入與視覺并行的三維虛擬聲音,一方面可以在很大程度上增強用戶在虛擬世界中的沉浸感和交互性,另一方面也可以減弱大腦對于視覺的依賴性,降低沉浸感對視覺信息的要求,使用戶能從既有視覺感受又有聽覺感受的環境中獲得更多的信息。
5 總結
能看到虛擬現實技術對計算機技術的聯系性非常緊密,并且虛擬現實技術對計算機設備的應用分類也越來越具體,越來越廣泛。相應的計算機設備也應用到虛擬現實技術的對應環節上。虛擬現實技術是一個極具潛力的前沿研究方向,是面向21世紀的重要技術之一。它在理論,軟硬件環境的研究方面依賴于多種技術的綜合,其中有很多技術有待完善。可以預見,隨著技術的發展,虛擬現實技術及其應用會越來越廣泛。
參考文獻:
[1]陳浩磊,鄒湘軍,陳燕,劉天湖.虛擬現實技術的最新發展與展望[J].中國科技論文在線,2011.
[2]王延汀.談談光子計算機.現代物理知識,2004,(16).
[3]陳連水,袁鳳輝,鄧放.分子計算機.分子信息學,2005,(3).
毫無疑問,聽覺和視覺是最容易被欺騙的。這兩種感覺通過接收信息時的微小區別來判斷信息的來源與圖像,而且感受器很小,容易被虛擬的信息覆蓋。
我們通過兩只耳朵分別接收到聲音的時間差和音量,由此判斷發聲物的方位和距離,精確的錄制手段和一套高保真音響足可以讓人們身臨其境。現在計算機軟件控制的音響效果已經可以達到讓人滿意的程度,每次在電腦游戲中轉身,聲音的來源都會馬上隨之改變。有些歌曲在立體環繞的效果下讓你能聽到仿佛帶著氣息的呢喃或是飄渺悠遠的吟唱。
視覺也是類似的,要呈現立體的視覺效果,只需要讓兩眼接收到的圖像有輕微不同即可。近年幾部3D大片讓我們在影院中能夠看到身臨其境的逼真畫面,類似的設備也已經出現在電腦上,現在3D有線數字電視也在試行中了。還有更簡單的辦法:我們可以在兩眼前分別架一塊屏幕,只要屏幕的分辨率夠高、計算機的處理能力夠強,我們就可以享受完美的立體視覺體驗。聽上去好像挺酷的吧?
這些其實都只是小兒科一事實上,這樣的系統已經有很多了。軍隊用這種系統訓練飛行員,醫療機構用它們來展示人體內部的細微構造,博物館用它來為參觀者提示藏品的歷史,工廠用它們來幫助設計新產品。
與聽覺和視覺相比,虛擬嗅覺和味覺會更麻煩一些。我們的嗅覺和味覺需要外界實體的刺激——而非僅僅是信息。嗅覺是因為鼻腔里的嗅覺細胞捕捉到了氣味分子,而味覺則來源于舌頭上的味蕾與食物分子的接觸。我們不可能通過數字技術虛擬出一個食物送到嘴邊。2004年,日本開發出了一種虛擬嗅覺系統。它的原理和噴墨打印機類似,在8個小瓶子中分別裝有8種會散發出不同水果香味的液體。當使用者帶上特制的手套,在虛擬環境中拿起某種水果并送到鼻尖時,安裝在手套指尖的微小噴頭就會釋放出那種水果的味道。我們的嗅覺世界并不是只由8種水果香氣構成的,而且也并非只有用手抓住湊近才能聞到。
2009年,英國約克大學和華威大學了一臺頭盔式虛擬現實設備,不僅提供嗅覺,還可以提供味覺。這個叫做“虛擬繭”的裝備構成了迄今為止最全面的體驗系統。兩個鏡片式的高清顯示器帶來立體視覺,一套高保真立體聲耳機讓你如同身在其境,能夠吹出熱風和冷風的風扇讓你冷暖自知,一套嗅覺模擬器,還有一個連接著導管的可以放在嘴里的海綿球,海綿球后連著味覺發生器的導管,它會釋放出帶有5種味道的液體,舔一舔海綿球就能嘗到。雖然這種方式與口感并不雅觀和怡人,但畢竟好過沒有。雖然舌頭上不同區域對于味道的敏感程度不同,這種方式也無法讓人的牙齒感受到那些食品帶來的感覺,而且嘴里塞進一個海綿球肯定會影響說話,但是我們目前還沒有比這更好的辦法來模擬味覺。不過至少這些英國的研究者很貼心,他們提供的5種味道意包含了肉味,這應該會讓受試者感到愉悅吧。
戴上這套頭盔會讓使用者看起來像未來戰士或者宇航員,更不要說除此之外還有一副遍布傳感器和動力裝置的手套一它可以讓使用者在虛擬環境中摸到“現實”。使用觸覺感受器來虛擬現實的想法很早就有了,微軟創始人比爾·蓋茨在他1995年的那本暢銷書《未來之路》中,認為將來可能會出現一種遍布著傳感器的緊身衣,可以讓人們體驗完美的虛擬觸覺。但是蓋茨的這種夢想,也許還需要十年甚至更長的時間才會實現。原因很簡單:人的觸覺感受器實在是太多,如果要精確模擬觸覺的話,所需要的處理能力和動力裝置的數量都相當驚人。比如,遍布在我們全身皮膚下的數十萬個天然感受器可以感受冷覺、熱覺、痛覺、壓力感等不同的感覺,這使得蓋茨的緊身衣在現今階段看起來還只是科幻。
關鍵詞: 立體視頻資源 鏡頭 場景 關鍵幀
1.引言
隨著多媒體技術的快速發展,立體視頻逐漸融入人們的日常生活中,應用領域不斷擴大,已經廣泛應用于軍事、醫療、虛擬現實、教育科研等領域,尤其是教育領域的應用不斷增加,同時產生大量立體視頻資源。常見的立體視頻以雙目立體視頻為主,通常采用雙路分離、左右合成、上下合成等格式表示,并通過紅藍或者偏光等形式顯示和觀看。隨著立體視頻資源的增多,立體視頻資源存儲入庫成為亟待解決的問題。本文主要解決雙目立體視頻的存儲入庫。
2.立體視頻的本質特征
立體視頻幀的本質特征是視頻幀本身所蘊含的特征信息,包括視頻幀的顏色特征、紋理特征、形狀特征、視差特征、深度特征,等等。
顏色特征是數字圖像領域中應用最廣的特征之一,提取圖像的顏色特征分為三步:選取顏色空間、顏色區間量化、相似性計算。顏色空間是一種通過特殊規則加以說明的顏色集合體,數字圖像上幾乎任何一種顏色都能在顏色空間找到對應的點,常用的顏色空間:RGB顏色空間,HSV顏色空間,YUV顏色空間。紋理特征是一種不依賴于顏色或亮度的反映圖像中同質現象的視覺特征,是物體表面特性,例如高山、小橋、石頭、衣服等都有各自的紋理特征。紋理特征包含物體表面結構組織排列的重要信息及其與周圍環境的聯系。形狀特征是指一個物體的外部輪廓,與顏色特征和紋理特征相比,形狀特征在描述立體視頻內容時更具有語義含義。形狀特征首先需要對圖像分割,把對象提取出來,再用各種方法進行匹配測量。對于形狀特征的描述方法有:邊界特征法、傅里葉形狀描述法、集合參數法、最小生成樹等[1]。
與2D視頻相比,立體視頻增加了視差和深度特征。立體電影的制作就是利用了雙目視差的原理。在拍攝時,使用兩臺攝像機相距幾厘米同時進行拍攝。放映時,把兩個影像同時放映在屏幕上,觀眾戴上立體眼鏡使左右兩眼的像落在視網膜上的非對應點,并產生一定的差異,從而產生立體視覺。
雙目視差是指兩眼注視外界物體時,兩個視網膜上視像之間的差異。距離和深度知覺,主要依賴雙目視差,它是形成立體視覺的最重要的依據。人的雙眼結構相同,雙眼間的距離大約是6.5cm,當人們觀看三維物體時,物體投射在左右眼睛上的像并不完全落在視網膜上的對應區域,左眼看物體的左邊多一些,右眼看物體的右邊多一些,三維物體在雙眼視網膜上的像就存在差異,稱為雙目視[2]。深度信息反映了所拍攝物體到相機的距離,獲得深度信息的方式有兩種;第一種是通過拍攝儀器直接獲得,但通過這種方式獲得的深度信息往往分辨率低,并且需要很大的計算復雜度,對硬件設備要求很高,一般情況下難以達到實時拍攝的需求。第二種深度信息的獲取是靠幾何學知識,利用已知參數的攝像機拍攝出的雙目視頻,利用立體匹配計算出視差后,反推視頻對象的深度信息[2]。隨著立體匹配技術的不斷完善,現在已形成許多各具特色的匹配算法。已有算法根據匹配準則的不同,大致可以分為兩大類:一類是局部匹配算法;另一類是全局匹配算法。全局匹配算法與局部匹配算法相比,匹配準確性較高,可以獲得較高精度的稠密視差圖,但是往往計算量大、耗時比較長、不易于硬件實現,無法應用于實時系統。總之,兩類立體匹配算法各有優缺點,適用于不同的情況和空間場景[3]。
3.建立立體視頻存儲入庫模型
視頻結構一般分為視頻、場景、鏡頭、視頻幀四個層次[4]。本文主要對立體視頻資源的鏡頭、場景、關鍵幀三個方面進行研究,建立立體視頻資源存儲入庫模型。
3.1立體視頻鏡頭分解存儲入庫
鏡頭是由時間上連續的幀構成,同一個鏡頭內的內容具有一致性。通過判斷連續幀之間的差異確定鏡頭的邊界。根據鏡頭邊界的不同,可分鏡頭的突變和鏡頭的漸變。鏡頭突變是指一個鏡頭內容的變化發生在單個視頻幀上。鏡頭漸變是指相鄰的兩個鏡頭的變換是逐漸完成的,在鏡頭切換的時候加入編輯特效,達到視覺上平滑過渡的效果。根據編輯特效的不同,鏡頭的漸變可以分為淡入(fade in)、淡出(fade out )、溶解(dissolve)、擦拭(wipe)等不同類型。淡入是指畫面亮度不斷增強;淡出是指畫面亮度慢慢變暗最終消失;溶解是指鏡頭的幀逐漸變淡退出;擦拭是指后一個鏡頭的畫面慢慢代替前面的一個鏡頭的畫面。
目前立體視頻鏡頭分割算法大多是基于2D視頻的,立體視頻鏡頭分割算法還不成熟,2D視頻的鏡頭邊界檢測算法主要分為兩大類:基于像素域的方法和基于壓縮域的方法。像素域中鏡頭邊界檢測方法主要利用時空域中的顏色、紋理、形狀等特征進行檢測。像素域中的算法主要有像素比較法,基于直方圖的方法,塊匹配法,基于邊緣的方法。由于現在大多數視頻序列以壓縮格式存儲,對這些壓縮形式的視頻流直接進行邊界檢測,節省大量解壓縮時間。目前壓縮域中的主要有基于DCT系數的方法,基于小波變化的方法,時空分析法。
雖然2D視頻的鏡頭分割算法能完成立體視頻資源存儲入庫的預處理工作,但是運用2D視頻鏡頭分割算法處理雙目立體視頻時,檢測結果往往存在一定誤差,并且不能很好地檢測鏡頭漸變的完整邊界變化,在2D視頻的鏡頭分割算法的基礎上,提取立體視頻的深度特征,進行鏡頭邊界檢測,從而提高鏡頭邊界的檢測精度,實現對立體視頻的鏡頭準的確分割。基于立體視頻鏡頭分割算法,對立體視頻資源存儲入庫。
3.2立體視頻場景分解存儲入庫
場景是由連續鏡頭組成的視頻片段,是表達一個完整情節的邏輯故事單元。
立體視頻場景分割,以鏡頭作為研究對象,根據鏡頭的內容相關性和時間上的鄰近性把相似的鏡頭劃分到同一場景中,這樣一段視頻被分割成若干個有意義的邏輯故事單元。
目前立體視頻場景分割算法大多是基于2D視頻的,立體視頻場景分割算法還不成熟。大體上通過提取鏡頭的視覺特征,把內容相關時間相近的鏡頭聚類成一個場景,或者綜合視覺信息和聽覺信息劃分場景[5]。
與傳統的2D視頻場景分割不同,立體視頻利用立體視頻鏡頭分割算法的結果,結合立體視頻顏色特征、紋理等本質特征,通過鏡頭聚類,檢測場景邊界,利用立體視頻的深度特征,實現對場景的準確分割,基于立體視頻場景分割算法,對立體視頻資源存儲入庫。
3.3立體視頻關鍵幀分解存儲入庫
幀是立體視頻的基本組成單位,立體視頻的每一幀都可以看成空間上獨立、時間上相關的靜止圖像。空間上獨立體現在立體視頻的每一幀都可以進行分析處理,時間上相關體現在時間軸上相鄰的幀一般會有內容上的相似性。
由于立體視頻中,幀的數量巨大,可以用關鍵幀描述鏡頭和場景。這樣既充分描述了視頻內容,又減少了冗余信息。關鍵幀就是能描述立體視頻內容主要的幀。根據立體視頻結構的復雜程度,關鍵幀可以由一幀或者多個幀組成。
目前立體視頻關鍵幀提取算法主要是:基于鏡頭邊界提取關鍵幀,基于運動分析提取關鍵幀,基于圖像信息提取關鍵幀,基于鏡頭活動性提取關鍵幀,基于聚類的方法提起關鍵幀。
Zhang,Wu[6]等人依據幀間的顯著變化來為2D視頻選擇多個關鍵幀,首先把鏡頭的第一幀作為關鍵幀,然后計算前一個關鍵幀與剩余幀之差,如果差值大于某一閾值,則再選取一個關鍵幀。與2D視頻不同,立體視頻依據幀間的顯著變化,再加上立體視頻的深度信息構建相鄰幀差,實現對關鍵幀的準確提取,基于立體視頻關鍵幀提取算法,對立體視頻資源存儲入庫。
4.結語
在2D視頻的鏡頭分割算法上基礎上,增加立體視頻的深度特征,得出立體視頻鏡頭分割算法,進而研究出立體視頻場景分割算法和關鍵幀提取算法,從鏡頭、場景、關鍵幀三個方面實現對立體視頻資源高效的管理及利用。對立體視頻資源存儲入庫的同時,增加了立體視頻素材,緩解了立體視頻資源匱乏的現狀。
參考文獻:
[1]印勇,侯海珍.基于直方圖幀差的自適應鏡頭分割算法[J].計算機工程與應用,2010,09:186-189.
[2]王波.雙目視差的立體視覺及其在技術課程教育中的應用[D].浙江工業大學,2012.
[3]楊志榮.雙目視覺立體匹配方法和遮擋問題研究[D].燕山大學,2010.
[4]Yong Rui,Huang,T.S,Mehrotra, S, “Exploring video structure beyond the shots,”in Multimedia Computing and Systems,1998. Proceedings. IEEE International Conference on,vol,no, pp.237-240,28 Jun-1 Jul 1998.
[5]王旭軍.視頻場景分割方法研究[D].重慶大學,2010.
目前,電腦上實現3D技術的投入不算貴,而且獲取3D片源和3D游戲相對容易。所以,有不少用戶都想購買一款3D顯示器,率先實現3D家庭娛樂。市面上的3D顯示器已經有很多型號,但是3D技術復雜多樣,優缺點不一,快門的、偏光的、NVIDIA的、AMD的、軟件的、硬件的……如何選擇一款合適的3D顯示器?各種3D技術之間在顯示效果上有什么區別?對硬件有什么樣的需求?就讓《微型計算機》評測室來做一次小白鼠,把市面上不同類型的3D顯示器都感受一番,為你帶來最真實的測試體驗。
3D顯示器的原理
要深入了解3D顯示器,我們首先應該從原理入手了解立體圖像在人眼中是如何形成的。人眼能夠感受三維立體世界的主要原因就是因為人眼有雙眼視差。用兩只眼睛去觀察世界,因為幾何光學投影到人兩只眼睛的距離不同、角度不同,會造成不同的視差。視差圖像在腦部區域融合,就產生了生理立體視覺,能夠感知客觀事物的深度。傳統顯示設備上顯示的二維圖像無論是在左眼還是在右眼所形成的圖像是一樣的,雖然我們也能判斷圖像中物體、人物的距離關系,但是這是由心理立體視覺形成的,主要通過遮擋、陰影、幾何透視和結構極差等因素來判斷。真正能夠形成生理立體視覺的主要因素,還是雙眼的視差信息。
在了解了立體圖像在人眼中形成的主要原因后,我們就能夠明白3D顯示器為什么能神奇地在二維平面上模擬出三維的圖像了。3D顯示器想辦法在平面上同時顯示有視差的兩幅畫面,然后通過技術手段對兩個畫面的內容進行過濾,讓左眼應該看到的畫面進入左眼,右眼應該看到的畫面進入右眼,就能在人的大腦中組合出一幅有視差的立體圖像了。那么,用什么樣的方式對左右眼的畫面分別進行過濾,就是3D顯示器的核心技術。
目前,市場上主流的3D顯示器根據原理分為快門式和偏光式(偏振式)兩種。
快門式3D顯示器是一種主動式3D技術,它的3D成像原理是讓顯示器的刷新率從60Hz提升到120Hz,然后讓左右眼畫面隔幀連續顯示,通過紅外信號發射器同步快門式3D眼鏡的左右液晶鏡片開關,輪流遮擋左右眼的畫面,讓兩眼看到不同的畫面。如此遮擋后的單眼畫面幀率同樣為每秒60幀,而且保證了原始分辨率不下降。
快門式3D顯示器
畫面畫質無損失,保持全高清分辨率。
亮度降低嚴重、有閃爍感、在3D游戲中性能會下降。
快門式3D顯示器原理示意圖
左眼看到的圖像信息
右眼看到的圖像信息
人眼看物體有明顯視差,然后通過視差產生立體感。
偏光式3D顯示器
畫面不閃爍、顯示器和眼鏡的成
本低。
畫面分辨率會降低、畫面可能會有抽絲感,文字顯示質量受影響。
偏光式3D顯示器原理示意圖
偏光式屬于被動式3D技術。它的3D成像原理是利用光線有“振動方向”的特質,通過顯示器上的偏光膜將圖像進行分解。使顯示器在正常顯示狀態下所顯示的單一畫面分解為垂直向偏光光、水平向偏光光兩個獨立的畫面,而使用者戴上左右分別采用不同偏光方向的偏光鏡片后,就能使雙眼分別看到不同的畫面并傳遞給大腦,進而形成3D影像。
其實我們使用的普通顯示器也可以實現3D立體播放,通過色分法,將左右眼畫面分成紅藍、紅綠兩種畫面,然后通過對應的紅藍、紅綠眼鏡過濾。只是這種3D畫面毫無色彩可言,不適合商用。而以上介紹的快門式和偏光式3D技術則是目前市場上3D顯示器所使用的主流技術,但是這些技術仍然還不夠成熟,所以優缺點都非常明顯。
3D顯示器方案解析
目前快門式3D顯示器主要集中在兩種方案上,一種是NVIDIA的3D Vision方案,另一種是AMD的HD3D方案,兩種方案都需要搭配各家的顯卡、120Hz顯示器和快門式眼鏡。支持NVIDIA方案的顯示器品牌和型號眾多,眼鏡單獨購買方便。支持AMD HD3D方案的快門式顯示器也很多,它們除了需要AMD顯卡之外,還需要安裝TriDef 3D軟件,該軟件也是除了3D Vision之外的其他3D顯示器必須安裝的。
而偏光式3D顯示器主要是由LG Display提供面板,搭配偏光眼鏡,對顯卡類型沒有要求,但是在使用過程中也需要TriDef 3D軟件的支持。以上這些類型的3D顯示器對圖像的分時處理都是由視頻發射端完成,比如由電腦完成。現在有一些3D顯示器安裝有3D處理芯片,即使接收的是2D圖像,也可以一鍵處理為3D圖像。這種類型的3D顯示器既有快門式,也有偏光式,在本次測試中我們都會一一介紹。
測試目的
液晶顯示器的3D化是目前日益同質化的顯示器市場中,廠商找尋差異化發展的一條重要道路。但在簡簡單單的“3D”二字的背后,卻有著兩種實現技術,三類解決方案,更有通過顯示器內置芯片實現3D的方案穿插其中,讓消費者在選購時無所適從。為了讓讀者能從紛繁復雜的3D顯示器市場中,了解各種方案各自的優勢、劣勢,找到適合自己的產品,《微型計算機》評測室特地組織了此次涵蓋市面上所有三種解決方案的3D顯示器的無差別體驗。每類解決方案選擇三款最具代表性的產品,從尺寸、功能等方面涵蓋每類方案下具備差異化的產品,務求將目前市面上所有典型類型的3D顯示器收羅齊全。
測試方法
三種3D顯示方案,九款3D顯示器,讀者最關心它們什么?這是《微型計算機》評測室在測試前最先考慮的問題。最終,我們找到了游戲這一關鍵詞。哪種方案對游戲的兼容性最好?哪種方案在游戲中的畫質更出色,立體感更強?這是許多人在看到3D顯示器時,最先想到的問題。因此我們確定了以游戲體驗為主,輔以客觀性能測試的評測方法。據此我們設置了包括3D游戲兼容性、3D游戲畫質、3D游戲立體感等在內的體驗項目,選擇的游戲以熱門FPS游戲為主,包括《戰地3》、《使命召喚8》,同時加入不同類型的游戲,比如受眾眾多的《FIFIA 11》,賽車類游戲《DIRT 3》。而針對讀者一直很關心的不同解決方案的3D顯示器,在戴上眼鏡后畫面亮度的衰減,我們也加入其中。
由于NVIDIA和AMD的方案分別只支持自家顯卡,所以我們在搭建平臺時分別選擇了GeForce GTX 580和Radeon HD 6950兩款顯卡。客觀性能測試則通過價值十幾萬元的美能達CS-200分光色度儀進行測試,保證各項數值的準確性。
測試項目
3D立體感/3D游戲兼容性/3D游戲負載需求
3D畫質優劣/3D方案價格對比
PS3藍光輸入兼容性
亮度
對比度
亮度不均勻性
NTSC色域范圍
測試工具
柯尼卡美能達CS-200分光色度儀
ColorFacts Test Patterns
測試環境
密閉的影音實驗室
殊途同歸 三種3D顯示方案
NVIDIA 3D Vision
作為最早推廣主動式快門技術的NVIDIA,其3D Vision已經推出了兩代。就技術而言,它們并無不同,因為無論是第一代還是第二代3D Vision眼鏡,都能在任何一臺支持3D Vision技術的顯示器(內置接收器或USB接口的外置接收器)上正常工作。它們的區別主要在于眼鏡的設計。第二代眼鏡的鏡片面積增大了20%,透光性更好,更適合27英寸的大尺寸3D顯示器。另外3D Vision 2還帶來了“3D LightBoost”畫質增強技術,3D LightBoost技術號稱可將3D圖像的亮度提高最多一倍。所以要識別產品是第一代還是第二代很簡單,一是看眼鏡,二是看顯示器是否具有3D LightBoost功能。而只憑接收器內置與否是不能作為判別標準的。
組建3D Vision的3D顯示平臺,首先需要一臺支持3D Vision的120Hz顯示器,還必須使用NVIDIA的顯卡,而且需要GeForce 8系列及以上系列的顯卡。系統方面,雖然使用Windows XP的游戲玩家已經不多,不過還是提醒一下,3D Vision只支持Windows Vista和Windows 7。最后,還必須采用24針的DVI-D Dual-Link或者HDMI接口連接PC。下面以華碩VG27H為例展示3D Vision的安裝過程。
1.用24針的DV I-D Dual-Link線連接顯卡和顯示器(平時常見的18針DVI線是不行的)。
2.安裝最新的NVIDIA驅動程序,重啟后在桌面點擊右鍵,進入NVIDIA控制面板,在右側菜單欄中選擇“設置3D立體視覺”。
3.點擊“啟用3D立體視覺”,第一次運行會自動進入“設置向導”,系統會檢測你的設備連接情況,讓你選擇游戲環境,指導你打開眼鏡以及測試硬件設置。
關鍵詞:面形檢測; 圖像預處理; 區域立體匹配; 面形實驗
中圖分類號: TN 247 文獻標志碼: A doi: 10.3969/j.issn.10055630.2015.05.005
Abstract:The projection method, that is a method of 3D surface profile detection based on the combination of linear structured light scanning measurement and stereoscopic vision measurement, can detect the surface profile of optical component online quickly and accurately. In this paper,an image processing algorithm is presented including preprocessing, areabased stereo matching, curve fitting and surface characterization testing, to recover the surface profile model of optical component. The results of the experiments show that this method can reconstruct the threedimensional exterior characteristics of the optical component truly and accurately. Therefore, the research is feasible and has research value.
Keywords: surface characterization inspection; image preprocessing; areabased stereo matching; surface characterization experiment
引 言
在光學儀器制造領域中,準確地檢測和評定光學元件面形對提高光學元件加工表面的質量,研究光學元件表面的幾何特性,探究光學元件的使用性能等都有著至關重要的意義。依據透鏡面形檢測理論,搭建實驗平臺并利用MATLAB和VC++軟件進行重建模擬。
1 測量原理
本文采用基于投影的檢測方法[14],原理如圖1所示,線結構光垂直入射被測光學元件表面形成全反射,立體視覺系統采集多組線結構光全反射圖片,通過MATLAB及VC++軟件對原始圖片進行圖像處理,進而重建光學元件的三維面形,算法流程如圖2所示。
2 圖像預處理
由于受到外界環境,人為因素的多種干擾和限制,實驗采集到的原始圖片并不能直接應用,需要進行圖像濾波和直方圖均衡化處理,目的是為了去除噪聲影響和平衡圖像對的亮度差異。濾波后的圖像對如圖3所示,直方圖均衡化的圖像對如圖4所示。
3 基于區域的立體匹配分析
3.1 匹配原理
本文采用區域立體匹配[57],原理如圖5所示。假設一個像素點的鄰域像素點和該點具有相同的視差,在基準圖左圖上選擇一點P(x,y)作為待匹配點,以該點的像素坐標作為中心點,選擇尺寸大小為W×W匹配窗口,此時在右圖中以d為搜索范圍計算同一極線上P(x,y)與P′(x+i,y)(i=1,2,…,d)的相似度,P′(x+i,y)(i=1,2,…,d)中的每個點跟P(x,y)一樣都要創建一個大小為W×W的像素鄰域,計算左右兩幅圖像中窗口包含的灰度值之間的相似性差異,用相關函數來表示,當兩幅圖像的一致性度量達到最大值,就認為與點P(x,y)匹配成功,匹配過程如圖6所示。
實驗選取9×9的匹配窗口,采用TSUKUBA提供的立體圖像對來分析這三種不同算子得到視差圖的差異。如圖7(a)、(b)所示為原始圖像對,輸出的理想視差圖如圖7(c)所示,不同算子得到的視差圖如圖7(d)、(e)、(f)所示。將不同算子得到的視差圖與理想視差圖進行比較可知,SAD算子得到的視差圖精確度略高于SSD算子和NCC算子,且該算子匹配速度較快,故本文實驗選用SAD算子進行立體匹配實驗。
3.3 匹配窗口分析
較為常用的區域立體匹配窗口有5×5、7×7、9×9、11×11。匹配窗口越小得到的視差圖細節輪廓越清晰,但同時產生的雜點較多,在視覺上有破碎感;匹配窗口越大得到的視差圖整體平滑性較好,但細節輪廓較模糊。
實驗選取SAD算子,仍然采用TSUKUBA提供的立體圖像對來分析不同匹配窗口得到視差圖的差異,如圖8(a)、(b)、(c)、(d)所示。
由圖8可知,匹配窗口越大,獲得視差圖的細節和邊緣越模糊,但同時虛假匹配點產生的越少,圖像也越平滑。因此,實驗選用9×9的匹配窗口。
3.4 透鏡區域立體匹配實驗
本文采用的是平行雙目視覺系統,所以基于區域的立體匹配過程只需在左右兩幅圖的同一水平位置上去尋找相應的匹配點即可。匹配過程選用SAD算子和9×9匹配窗口進行,圖9為經過圖像處理的視差圖。
4 曲線擬合
用單一像素提取視差圖中圓環的坐標點,通過最小二乘法對這些坐標點進行圓擬合獲得圓心坐標以及圓半徑,擬合結果如圖10所示。為了方便進行三角剖分,還需要將圖10中的擬合圖進行疊加,疊加結果如圖11所示。
5 光學元件面形實驗
5.1 光學元件三維模型重建實驗
在曲線擬合過程中,已用單一像素提取了視差圖中圓環和曲線的多個二維平面坐標點,為了真實還原透鏡面形,還需進行三維空間坐標點的計算,由于本文搭建的實驗平臺是平行放置的雙目立體視覺系統,故采用平行雙目立體視覺系統的三維空間點坐標計算方法[8]來進行二維平面坐標點到三維空間坐標點的轉化。
將得到的三維空間離散坐標點進行Delaunay 標準的BowyerWatson三角剖分算法[910]來實現透鏡的三維面形還原,剖分過程如圖12所示,并在VC++環境中使用OpenGL庫,繪出了三維立體透鏡模型圖像如圖13所示。如圖14給出了在MATLAB環境中還原出來的透鏡表面的微觀情況。
5.2 Taylor Hobson輪廓儀實驗
Taylor Hobso輪廓儀是通過儀器的觸針在被測物表面滑移來進行檢測的,可以直接按某種評定標準讀數或描繪出表面輪廓曲線的形狀,通過Taylor Hobso輪廓儀檢測該透鏡,其一維面形圖如圖15所示,透鏡輪廓圖如圖16所示。
5.3 ZYGO干涉儀實驗
ZYGO干涉儀是目前非接觸式檢測光學元件面形較為成熟的實驗儀器,能夠還原被測光學元件的一維及三維面形圖,可計算出光學元件表面最大波峰值與最小波谷值之差的PV值和均方根誤差(RMS)值,其強度圖如圖17所示,一維面形圖如圖18所示,三維面形圖如圖19所示。
5.4 實驗結果及結論
投影法實驗對口徑14 mm,曲率半徑13 mm的球面鏡進行的檢測,通過VC++環境進行三角剖分,得到了透鏡面形的立體三維圖形,同時利用MATLAB軟件還原出透鏡表面的微觀情況,并計算出評價透鏡表面面形的重要參數――PV值和RMS值。
Taylor Hobso輪廓儀和ZYGO干涉儀檢測光學元件面形的技術在現階段來說已經比較成熟,所以將投影法的檢測結果與這兩種檢測儀的檢測結果比較即可驗證該檢測方法的可行性。如表1所示可知,投影法與Taylor Hobso輪廓儀、ZYGO干
涉儀的檢測結果中,PV值及RMS值之差約為0.01 μm,對于一個口徑較小的透鏡來說,這樣的結果是較為理想的,其結果與Taylor Hobso輪廓儀、ZYGO干涉儀的檢測結果精度較為接近,這樣就驗證了結構光投影法檢測光學元件的方法是可以滿足通常的檢測要求,具有一定的可行性。
6 結 論
本文提出的投影法光學元件面形檢測技術,克服了傳統檢測方法中對外界環境要求嚴格的諸多不足之處。實驗顯示,該方法能夠檢測還原光學元件三維外貌特性,但后期仍需進一步優化圖像處理算法,提高檢測精度。
參考文獻:
[1]孫國強,許增樸.用于產品造型設計的三維反求測量系統的研究[D].天津:天津科技大學,2007.
[2]王曉林,陳偉民,黃尚廉.光切法三維輪廓測量的原理及其應用[J].光學技術,1997,3(2):3943.
[3]陳江.二目立體視覺測量系統關鍵技術研究[D].南京:南京航空航天大學,2006.
[4]高文,陳熙霖.計算機視覺―算法與系統原理[M].北京:清華大學出版社,1999.
[5]達飛鵬,蓋紹彥.光柵投影三維精密測量[M].北京:科學出版社,2011.
[6]HIRSCHMULLER H.Improvements in realtime correlationbased stereo vision[J].IEEE Workshop on Stereo and MultiBaseline Vision.2001,141148.
[7]劉瑜,劉纏牢,蘇海.一種基于結構光雙目視覺的特征匹配算法研究[J].光學儀器,2014,36(2):161166.
[8]何勇.雙目視覺的車輛場景三維重建方法研究及應用[D].合肥:合肥工業大學,2009.