數智生活
數智治理
數智產(chǎn)業(yè)
數智軍工
敬請期待
匯集全面、前沿、深度的小視科技官網(wǎng)資訊與媒體聚焦報道
近日,小視科技在第一屆CVPR 2023 WorkShop 大模型挑戰賽中,與全球七十多個(gè)隊伍激烈角逐,取得了A榜第一名、B榜第三名的優(yōu)異成績(jì)。
CVPR 2023 1st foundation model challenge - TRACK 2 排行榜中,小視科技MiniModel脫穎而出
本次挑戰賽是今年百度在CVPR 2023上舉辦的首屆大模型workshop。競賽以智能交通為方向,小視科技所在的賽道聚焦對場(chǎng)景文本圖像的理解與感知,旨在提升交通場(chǎng)景中文本圖像檢索的精度。
01 大模型,如何服務(wù)智能交通?
ChatGPT大熱,讓我們第一次感受到了大模型的魅力,語(yǔ)言機器人可以像老朋友一樣與你聊天。那么,大模型又會(huì )在智能交通領(lǐng)域做哪些事?
交通場(chǎng)景中存在大量檢索車(chē)輛、行人的需求,高性能的圖像檢索能力對于交通執法、治安治理具有十分重要的作用。
傳統圖像檢索方式標注成本較高,并且不方便進(jìn)行類(lèi)別拓展。隨著(zhù)多模態(tài)大模型技術(shù)的發(fā)展,文本與圖像的表征統一和模態(tài)轉換已有廣泛的研究和應用,已經(jīng)能夠有效利用互聯(lián)網(wǎng)上的海量圖像-文本描述數據訓練foundational model。這不僅可以降低下游微調任務(wù)成本,模型本身也具有較強的Zero-shot(零樣本學(xué)習)能力,能夠更好地識別新事物。該模型進(jìn)一步提升圖像檢索準確度和靈活性,服務(wù)智能交通。
02 小視算法方案
本次競賽數據集包含行人、車(chē)輛等交通參與者和大量噪聲數據,任務(wù)難度提升。車(chē)輛數據差異較大,監控視角與非監控視角均有,對基礎模型的遷移能力要求也很高。
車(chē)輛數據差異極大
我們使用多模態(tài)統一特征表達優(yōu)化技術(shù)完成了本次交通場(chǎng)景檢索任務(wù)。
我們的方法聚焦在數據處理、模型結構、訓練策略、模型融合,額外加入了模型生成數據和開(kāi)源數據,進(jìn)一步提升foundation model在領(lǐng)域內的表征能力。我們使用多個(gè)異構模型進(jìn)行later fusion,并對檢索結果重新排序。
此外,我們在訓練時(shí)使用prompt增強技術(shù)來(lái)優(yōu)化分詞歧義并增強屬性特征表征能力,使用loss截斷抑制噪聲數據,使用凍結參數來(lái)抑制過(guò)擬合。
我們采用數據仿真和生成等方法去發(fā)揮foundational model的潛力,采用新穎的模型集成方法,以loss截斷抑制噪聲數據、prompt增強等技巧提升下游檢索任務(wù)的精度。
采用多模態(tài)對比學(xué)習的技術(shù)路線(xiàn),充分發(fā)揮大模型的能力,在應對場(chǎng)景變化和同時(shí)處理多種場(chǎng)景時(shí)有非常好的表現。這一方案充分發(fā)揮多模態(tài)統一特征表達優(yōu)化技術(shù)的潛力,能夠更好地應用于真實(shí)的交通場(chǎng)景中,具有較高的實(shí)際使用價(jià)值。
此外,這些方法在其它場(chǎng)景中也有一定的參考價(jià)值。小視團隊將繼續深入研究多模態(tài)大模型技術(shù),探索更多的垂類(lèi)場(chǎng)景應用,讓更多人感受到前沿AI技術(shù)帶來(lái)的新體驗、新生活。