據(jù)麥姆斯咨詢報(bào)道,近期,北京理工大學(xué)邊麗蘅研究員(通訊作者)、彭林濤(第一作者)等人提出一種無(wú)圖像單像素目標(biāo)檢測(cè)(SPOD)方法,無(wú)需獲取圖像或進(jìn)行復(fù)雜場(chǎng)景重建,即可檢測(cè)多個(gè)目標(biāo)的位置、大小和類別。該方法采用單像素探測(cè)器,極大地降低了目標(biāo)檢測(cè)所需的計(jì)算能力,能同時(shí)執(zhí)行目標(biāo)分類、識(shí)別和跟蹤,可用于駕駛時(shí)的危險(xiǎn)識(shí)別。相關(guān)研究成果以“Image-free single-pixel object detection”為題發(fā)表在Optics Letters期刊。
圖1 北京理工大學(xué)邊麗蘅研究團(tuán)隊(duì)提出一種無(wú)圖像單像素目標(biāo)檢測(cè)(SPOD)方法,可用于多目標(biāo)位置、大小和類別檢測(cè)
(資料圖片)
該研究團(tuán)隊(duì)負(fù)責(zé)人邊麗蘅表示,利用無(wú)圖像單像素目標(biāo)檢測(cè)(SPOD)技術(shù)可以直接從少量二維(2D)耦合測(cè)量值中實(shí)現(xiàn)高效、穩(wěn)健的多目標(biāo)檢測(cè),這種無(wú)圖像傳感技術(shù)有望解決現(xiàn)有視覺(jué)感知系統(tǒng)通信負(fù)載大、計(jì)算開銷大和識(shí)別率低等問(wèn)題。
這種高效的無(wú)圖像SPOD技術(shù)由三個(gè)步驟組成,包括小尺寸圖像優(yōu)化調(diào)制、2D耦合測(cè)量采集和端到端傳感。SPOD技術(shù)的優(yōu)勢(shì)在于以下三個(gè)方面。首先,建立端到端感知網(wǎng)絡(luò),通過(guò)2D耦合測(cè)量直接感知多個(gè)目標(biāo),與傳統(tǒng)的基于圖像的方法相比,可以減輕通信、計(jì)算和存儲(chǔ)負(fù)擔(dān)。其次,所提出的小尺寸優(yōu)化圖像采樣方法能以更少的圖像參數(shù)實(shí)現(xiàn)更好的無(wú)圖像傳感性能,并與傳感網(wǎng)絡(luò)一起通過(guò)兩階段進(jìn)行訓(xùn)練和優(yōu)化,從而保證了以最少的測(cè)量實(shí)現(xiàn)最優(yōu)的感知效率。第三,基于transformer結(jié)構(gòu)設(shè)計(jì)的SPOD可以增強(qiáng)網(wǎng)絡(luò)對(duì)場(chǎng)景中目標(biāo)的關(guān)注,并提取有效特征,從而提高目標(biāo)檢測(cè)性能。
圖2 (a)SPOD兩階段訓(xùn)練策略及主要框架;(b)負(fù)責(zé)解析高維語(yǔ)義特征和實(shí)現(xiàn)無(wú)圖像目標(biāo)檢測(cè)的解碼器的詳細(xì)結(jié)構(gòu)
利用SOPD方法獲得目標(biāo)2D測(cè)量值時(shí),測(cè)量值會(huì)被輸入基于transformer的編碼器(一種深度學(xué)習(xí)模型),并提取場(chǎng)景中的高維語(yǔ)義特征。這些特征被輸入基于多尺度注意力網(wǎng)絡(luò)的解碼器中,該解碼器可同時(shí)輸出場(chǎng)景中所有目標(biāo)的類別、位置和大小信息。
自動(dòng)化高級(jí)視覺(jué)任務(wù)通常需要場(chǎng)景的詳細(xì)圖像,以提取識(shí)別物體所需的特征。但這通常需要復(fù)雜的成像硬件或者復(fù)雜的重構(gòu)算法,會(huì)導(dǎo)致計(jì)算成本高、運(yùn)行時(shí)間長(zhǎng)、數(shù)據(jù)傳輸負(fù)載大。因此,傳統(tǒng)的“先圖像后感知”方法并非目標(biāo)檢測(cè)的最佳選擇。
基于單像素探測(cè)器的SPOD方法能夠減少目標(biāo)檢測(cè)所需的計(jì)算能力。這是因?yàn)閱蜗袼靥綔y(cè)技術(shù)不使用CMOS圖像傳感器或CCD圖像傳感器,而是用一系列結(jié)構(gòu)光模式照亮場(chǎng)景,然后記錄透射光強(qiáng)度,以獲取物體的空間信息,從而計(jì)算重建目標(biāo)或其屬性。
研究人員認(rèn)為,SPOD采用的小尺寸優(yōu)化圖像采樣比傳統(tǒng)的圖像采樣方法少一個(gè)數(shù)量級(jí)的圖像參數(shù),能實(shí)現(xiàn)較高的無(wú)圖像傳感精度。
“與其它單像素探測(cè)方法使用的全尺寸圖像相比,SPOD這種小尺寸優(yōu)化圖像能實(shí)現(xiàn)更好的無(wú)圖像傳感性能?!迸砹譂f(shuō)道:“SPOD解碼器中的多尺度注意力網(wǎng)絡(luò)加強(qiáng)了網(wǎng)絡(luò)對(duì)場(chǎng)景中目標(biāo)區(qū)域的注意力。這可以更有效地提取場(chǎng)景特征,實(shí)現(xiàn)最先進(jìn)的目標(biāo)檢測(cè)性能?!?/p>
“對(duì)于自動(dòng)駕駛來(lái)說(shuō),SPOD可以與激光雷達(dá)(LiDAR)一起使用,以幫助提高場(chǎng)景重建速度和物體檢測(cè)精度?!边咞愞勘硎荆骸拔覀兿嘈牛哂凶銐蚋叩淖詣?dòng)駕駛檢測(cè)率和準(zhǔn)確性,同時(shí)還降低了物體檢測(cè)所需的傳輸帶寬和計(jì)算資源要求?!?/p>
為了證明SPOD的性能,邊麗蘅研究團(tuán)隊(duì)構(gòu)建了一個(gè)概念驗(yàn)證裝置。從Pascal Voc 2012測(cè)試數(shù)據(jù)集中隨機(jī)選擇圖像打印在膠片上并用作目標(biāo)場(chǎng)景。在5%的采樣率下,使用SPOD完成每個(gè)場(chǎng)景的空間光調(diào)制和無(wú)圖像目標(biāo)檢測(cè)的平均時(shí)間僅為0.016 s。相較于先進(jìn)行場(chǎng)景重建(0.05 s)然后進(jìn)行目標(biāo)檢測(cè)(0.018 s)的方法,效率顯著提升。對(duì)于測(cè)試數(shù)據(jù)集中包含的所有目標(biāo)類別,SPOD的平均檢測(cè)準(zhǔn)確率為82.2%,刷新率為63幀/秒。
圖3 (a)無(wú)圖像SPOD的概念驗(yàn)證設(shè)置;(b)在5%采樣率下,各種自然場(chǎng)景下的SPOD檢測(cè)實(shí)驗(yàn)結(jié)果
“目前,SPOD還無(wú)法檢測(cè)到所有可能的目標(biāo)類別,因?yàn)橛糜谟?xùn)練模型的現(xiàn)有目標(biāo)檢測(cè)數(shù)據(jù)集僅包含80個(gè)類別?!迸砹譂^續(xù)說(shuō)道:“不過(guò),當(dāng)面對(duì)特定任務(wù)時(shí),可以對(duì)預(yù)先訓(xùn)練的模型進(jìn)行微調(diào),以實(shí)現(xiàn)對(duì)行人、車輛或船只等新目標(biāo)類別的無(wú)圖像多目標(biāo)檢測(cè)?!?/p>
接下來(lái),研究人員計(jì)劃將無(wú)圖像感知技術(shù)擴(kuò)展到其它類型的探測(cè)器和計(jì)算采集系統(tǒng),以實(shí)現(xiàn)無(wú)重建傳感技術(shù)。
論文鏈接:https://doi.org/10.1364/OL.486078
關(guān)鍵詞: