色婷婷AV无码久久精品,久久天天躁狠狠躁夜夜97,羞羞麻豆国产精品1区2区3区,啪影院免费线观看视频,思思久久er99精品亚洲

常州機(jī)器視覺培訓(xùn)

常州上位機(jī)軟件開發(fā)

常州工業(yè)機(jī)器人編程設(shè)計(jì)培訓(xùn)

常州PLC培訓(xùn)

常州PLC

常州PLC編程培訓(xùn)

常州電工培訓(xùn)

常州和訊plc培訓(xùn)中心歡迎您!
當(dāng)前位置:網(wǎng)站首頁(yè) > 新聞中心 新聞中心
BEV感知模型實(shí)用的一些經(jīng)驗(yàn)-常州上位機(jī)培訓(xùn),常州機(jī)器視覺培訓(xùn)
日期:2024-3-28 11:43:09人氣:  標(biāo)簽:常州上位機(jī)培訓(xùn) 常州機(jī)器視覺培訓(xùn)

目前實(shí)用 BEV 的技術(shù)方案已經(jīng)有大概半年時(shí)間了,多個(gè) BEV 模型都在不同項(xiàng)目做了實(shí)際部署,可以在這些工作的基礎(chǔ)上做一些經(jīng)驗(yàn)總結(jié)了。

內(nèi)容其實(shí)是斷斷續(xù)續(xù)寫的,因?yàn)樾鹿诘哪X霧在我身上可感知的大概持續(xù)了半個(gè)月。


BEV 帶來的優(yōu)勢(shì):

1. 實(shí)際的運(yùn)行性能提升

雖然這個(gè)看起來比較反直覺。但是實(shí)際上性能反而比 2D 任務(wù)更好,而且還能保持基本對(duì)標(biāo)甚至更好的指標(biāo)。同樣的兩個(gè)任務(wù),我們使用更少的算力(1/3 不到),由單相機(jī)擴(kuò)展到 6相機(jī),依然保持了實(shí)時(shí)運(yùn)行。在測(cè)試指標(biāo)上,基本保持了一致。當(dāng)然,我們的 BEV 感知范圍減少了側(cè)向和后向的范圍。


相比傳統(tǒng)的方案,主要的提升來源:


整個(gè) Pipeline 處理更加簡(jiǎn)單和一致,相比一些傳統(tǒng)的方案,代碼量降低了很多,在工程方向上,這個(gè)極大的一個(gè)優(yōu)點(diǎn)。越少的代碼,代表越少的bug,越低的維護(hù)成本。


由于沒有了 infer 后的一些額外后處理工作帶來的指標(biāo)降低,模型結(jié)構(gòu)可以進(jìn)一步簡(jiǎn)化,不用在模型這里去補(bǔ)償。


Multi-scale 的融合集中在模型內(nèi)部。


在 BEV 的統(tǒng)一框架下,我們可以將多個(gè)任務(wù)融合在一個(gè)模型中統(tǒng)一處理。


2. 穩(wěn)定性提升

這個(gè)無需懷疑,我們的經(jīng)驗(yàn)和之前 Tesla AI day 上的一些宣傳是一致的:


模型預(yù)測(cè)正確的情況下,車道線的內(nèi)外八、大幅度的抖動(dòng)基本不會(huì)出現(xiàn)。單單這一點(diǎn),已經(jīng)解決了非常多的問題。


從上一點(diǎn)引申出來,之前的很多問題都可以很容易的歸約到一個(gè)問題上:更多的數(shù)據(jù)。看起來很粗暴,但是這是數(shù)據(jù)驅(qū)動(dòng)的前置條件,不滿足這個(gè)條件,就不用談什么數(shù)據(jù)驅(qū)動(dòng)。


3. 多目模型無盲區(qū)

在使用多目的 BEV 模型后,車身周邊的障礙物感知是提升顯著的。由于多個(gè)原因,評(píng)測(cè)集合中的車身側(cè)后的 GT 是有盲區(qū)的,模型都可以正常檢測(cè)。目標(biāo)在切換不同相機(jī)感知范圍時(shí),在我們自己的測(cè)試集上看,很少有跳變。


4. 功能擴(kuò)展難度降低

由于這一框架更加穩(wěn)定,通用,功能擴(kuò)展基本都可以在 head 上簡(jiǎn)單增加內(nèi)容。比如 Tracking Embedding 的功能,代碼 + 驗(yàn)證訓(xùn)練,僅僅需要 3 天,實(shí)際上絕大部分時(shí)間都在訓(xùn)練上。


問題:

1. 硬件支持

主要的來源是算子限制。最近一年中,BEV 的論文,百家齊放。但是落實(shí)到我們使用的 AI 加速器上,大部分都不支持。即使勉強(qiáng)支持,性能也不行。我們最終還是切換到 MLP 的方案上實(shí)現(xiàn)上車運(yùn)行。


2. 信息丟失

2D -> 3D 的轉(zhuǎn)換模塊帶來的信息損失,帶來的直接問題就是遠(yuǎn)距離、小目標(biāo)的檢測(cè)不理想。不過由于目前階段的感知范圍相對(duì)比較小,還沒有要求到100m開外,所以整體上表現(xiàn)還不明顯。但是這個(gè)問題可能依然是未來必須要面對(duì)的問題,我這里有一部分的工作也在嘗試緩解這個(gè)問題。


3. 數(shù)據(jù)需求

數(shù)據(jù)量需求較大:


由于2D -> 3D 的部分我們使用的是 MLP,非常容易過擬合。


視覺上 3D 本身的 augmentation 很難做,而且對(duì)于硬件標(biāo)定有依賴。


生成難度也較大:目前階段還大量使用激光來輔助數(shù)據(jù)生成,但是這樣的方案由于傳感器的原因,在未來是沒法擴(kuò)展的。這也是目前階段我們?cè)趪L試考慮的一個(gè)問題。


隨著多目任務(wù)的引入,帶來了一個(gè)很難避免的問題:模型和相機(jī)的布置基本處于一個(gè)硬綁定的狀態(tài)。對(duì)于普通的公司,必須面對(duì)這個(gè)問題:怎么樣可以用盡量少的數(shù)據(jù)、更快的適配新的車型。在我看來這是一個(gè)體系化的解決方案,數(shù)據(jù)、硬件、算法、工程,都需要針對(duì)這一問題作出適應(yīng)。


目前來看,特斯拉的 4D 標(biāo)注在靜態(tài)元素上確實(shí)是一個(gè)比較符合邏輯的方案,成本和效率都比較高(當(dāng)然也會(huì)有一些問題)。但是動(dòng)態(tài)元素上的工作,我們還在考慮。


挑戰(zhàn):

1. 感知面對(duì)戰(zhàn)爭(zhēng)迷霧的挑戰(zhàn)

當(dāng)然這個(gè)和 BEV 本身并沒有直接關(guān)系。但是感知模塊即使做到完美也存在盲區(qū)、遮擋、極限范圍外的問題。所以,如何更好的處理不確定性,增加容錯(cuò)度是依然需要面對(duì)的問題。


我自己愛說的一句:感知做到最后都是預(yù)測(cè)。一旦涉及到預(yù)測(cè),就引入了不確定性和概率。如何利用模型來應(yīng)對(duì)這個(gè)問題,應(yīng)該是未來工作內(nèi)容的一個(gè)重點(diǎn)。


2. 新的 2D -> 3D 轉(zhuǎn)換模塊的探索

在學(xué)界,已經(jīng)有很多方案。主要方向:利用投影、Transformer 及其變體、直接的MLP。


目前從應(yīng)用角度來看,都還有或多或少的缺陷。怎樣實(shí)用化一個(gè)新的轉(zhuǎn)換模塊,也是需要考慮的。公司內(nèi)部也有其他的 team 做了一些探索性的工作,提供了一些情報(bào)支持,我們自己也在開展下一代轉(zhuǎn)換模塊的選型和試驗(yàn)。


從我個(gè)人的角度來看,逐漸的減少先驗(yàn)限制才可能會(huì)有更好的結(jié)果。當(dāng)然,從工業(yè)界研發(fā)來看,要把握好時(shí)機(jī)和程度,做好平衡。


3. 數(shù)據(jù)量的提升

BEV 方案相對(duì)來說是比較吃數(shù)據(jù)的。當(dāng)然,也沒有夸張到是數(shù)據(jù)怪獸,非特斯拉的數(shù)據(jù)量不行,正常的公司慢慢迭代穩(wěn)定后,是可以達(dá)到一個(gè)基準(zhǔn)線的。


本身引入 3D 空間后,augmentation 變得很難,尤其是多相機(jī)相互之間的關(guān)系讓這個(gè)問題更加復(fù)雜。最可靠的方法反而是:堆更多的數(shù)據(jù)。


本文網(wǎng)址:
下一篇:沒有資料

相關(guān)信息:
版權(quán)所有 CopyRight 2006-2017 江蘇和訊自動(dòng)化設(shè)備有限公司 常州自動(dòng)化培訓(xùn)中心 電話:0519-85602926 地址:常州市新北區(qū)府琛商務(wù)廣場(chǎng)2號(hào)樓1409室
蘇ICP備14016686號(hào)-2 技術(shù)支持:常州山水網(wǎng)絡(luò)
本站關(guān)鍵詞:常州PLC培訓(xùn) 常州PLC編程培訓(xùn) 常州PLC編程 常州PLC培訓(xùn)班 網(wǎng)站地圖 網(wǎng)站標(biāo)簽
在線與我們?nèi)〉寐?lián)系
色婷婷AV无码久久精品,久久天天躁狠狠躁夜夜97,羞羞麻豆国产精品1区2区3区,啪影院免费线观看视频,思思久久er99精品亚洲