欧美高清精品一区二区三区|精品一区二区三区视频电影|国产伦一区二区三区久久|日韩中文字幕不卡

公司新聞

新聞中心

匯集全面、前沿、深度的小視科技官網(wǎng)資訊與媒體聚焦報道

首屆CVPR 2023大模型挑戰賽 | 小視科技位列“前三”,把脈智能交通難題

公司新聞 2023-06-30 3492 閱讀

近日,小視科技在第一屆CVPR 2023 WorkShop 大模型挑戰賽中,與全球七十多個(gè)隊伍激烈角逐,取得了A榜第一名、B榜第三名的優(yōu)異成績(jì)。


首屆CVPR 2023大模型挑戰賽 小視科技位列“前三”,把脈智能交通難題1.jpg


CVPR 2023 1st foundation model challenge - TRACK 2 排行榜中,小視科技MiniModel脫穎而出


本次挑戰賽是今年百度在CVPR 2023上舉辦的首屆大模型workshop。競賽以智能交通為方向,小視科技所在的賽道聚焦對場(chǎng)景文本圖像的理解與感知,旨在提升交通場(chǎng)景中文本圖像檢索的精度。


01 大模型,如何服務(wù)智能交通?


ChatGPT大熱,讓我們第一次感受到了大模型的魅力,語(yǔ)言機器人可以像老朋友一樣與你聊天。那么,大模型又會(huì )在智能交通領(lǐng)域做哪些事?


交通場(chǎng)景中存在大量檢索車(chē)輛、行人的需求,高性能的圖像檢索能力對于交通執法、治安治理具有十分重要的作用。


首屆CVPR 2023大模型挑戰賽  小視科技位列“前三”,把脈智能交通難題4.jpg


傳統圖像檢索方式標注成本較高,并且不方便進(jìn)行類(lèi)別拓展。隨著(zhù)多模態(tài)大模型技術(shù)的發(fā)展,文本與圖像的表征統一和模態(tài)轉換已有廣泛的研究和應用,已經(jīng)能夠有效利用互聯(lián)網(wǎng)上的海量圖像-文本描述數據訓練foundational model。這不僅可以降低下游微調任務(wù)成本,模型本身也具有較強的Zero-shot(零樣本學(xué)習)能力,能夠更好地識別新事物。該模型進(jìn)一步提升圖像檢索準確度和靈活性,服務(wù)智能交通。


02 小視算法方案


本次競賽數據集包含行人、車(chē)輛等交通參與者和大量噪聲數據,任務(wù)難度提升。車(chē)輛數據差異較大,監控視角與非監控視角均有,對基礎模型的遷移能力要求也很高。


車(chē)輛數據差異極大


我們使用多模態(tài)統一特征表達優(yōu)化技術(shù)完成了本次交通場(chǎng)景檢索任務(wù)。


我們的方法聚焦在數據處理、模型結構、訓練策略、模型融合,額外加入了模型生成數據和開(kāi)源數據,進(jìn)一步提升foundation model在領(lǐng)域內的表征能力。我們使用多個(gè)異構模型進(jìn)行later fusion,并對檢索結果重新排序。


此外,我們在訓練時(shí)使用prompt增強技術(shù)來(lái)優(yōu)化分詞歧義并增強屬性特征表征能力,使用loss截斷抑制噪聲數據,使用凍結參數來(lái)抑制過(guò)擬合。


首屆CVPR 2023大模型挑戰賽  小視科技位列“前三”,把脈智能交通難題7.png


我們采用數據仿真和生成等方法去發(fā)揮foundational model的潛力,采用新穎的模型集成方法,以loss截斷抑制噪聲數據、prompt增強等技巧提升下游檢索任務(wù)的精度。


采用多模態(tài)對比學(xué)習的技術(shù)路線(xiàn),充分發(fā)揮大模型的能力,在應對場(chǎng)景變化和同時(shí)處理多種場(chǎng)景時(shí)有非常好的表現。這一方案充分發(fā)揮多模態(tài)統一特征表達優(yōu)化技術(shù)的潛力,能夠更好地應用于真實(shí)的交通場(chǎng)景中,具有較高的實(shí)際使用價(jià)值。


首屆CVPR 2023大模型挑戰賽  小視科技位列“前三”,把脈智能交通難題8.png


此外,這些方法在其它場(chǎng)景中也有一定的參考價(jià)值。小視團隊將繼續深入研究多模態(tài)大模型技術(shù),探索更多的垂類(lèi)場(chǎng)景應用,讓更多人感受到前沿AI技術(shù)帶來(lái)的新體驗、新生活。