欧美高清精品一区二区三区|精品一区二区三区视频电影|国产伦一区二区三区久久|日韩中文字幕不卡

公司新聞

新聞中心

匯集全面、前沿、深度的小視科技官網(wǎng)資訊與媒體聚焦報道

小視科技奪冠!大模型競賽“一冠一季”收入囊中 | CVPR 2023 VIZWIZ Grand Challenge

公司新聞 2023-07-04 3277 閱讀

近日,CVPR 2023 VIZWIZ Grand Challenge Workshop 競賽成績(jì)公布。小視科技參賽團隊在顯著(zhù)性目標檢測賽道獲得第一名,在視覺(jué)問(wèn)答賽道中獲得第三名。


小視科技奪冠!大模型競賽“一冠一季”收入囊中  CVPR 2023 VIZWIZ Grand Challenge 1.png

小視團隊奪得顯著(zhù)性目標檢測賽道冠軍



小視科技奪冠!大模型競賽“一冠一季”收入囊中  CVPR 2023 VIZWIZ Grand Challenge 2.jpg

小視團隊奪得視覺(jué)問(wèn)答賽道季軍



01 VizWiz Grand Challenge 雙賽道獲“一冠一季”


CVPR是世界頂級的計算機視覺(jué)會(huì )議三大頂會(huì )之一,由IEEE主辦,有著(zhù)計算機視覺(jué)領(lǐng)域“奧斯卡”的美譽(yù)。本屆VIZWIZ Grand Challenge Workshop 是由微軟、蘋(píng)果和科羅拉多大學(xué)博爾德分校等共同在CVPR上舉辦的國際性賽事。


這項比賽旨在解決視力障礙人群提出的需求,通過(guò)提升視覺(jué)算法的精度,滿(mǎn)足他們對感知周?chē)h(huán)境的需求,進(jìn)而促使計算機視覺(jué)社區合作開(kāi)發(fā)輔助技術(shù)的算法。




02 顯著(zhù)性目標檢測賽道 小視冠軍方案


顯著(zhù)性目標檢測是CV領(lǐng)域的一項重要任務(wù),旨在識別圖片中最具顯著(zhù)性的目標物體或區域,讓計算機理解圖像中的哪些部分是人們關(guān)注的重點(diǎn)。


小視科技奪冠!大模型競賽“一冠一季”收入囊中  CVPR 2023 VIZWIZ Grand Challenge 3.png

官方提供的數據集,圖片均由視障人士拍攝


官方數據集包括訓練集19116張圖片、驗證集6105張圖片、測試集6779張圖片。


我們使用多模態(tài)模型預測得到顯著(zhù)圖像的描述,如下圖food,擴散模型根據描述在對應的位置生成目標,再分割得到生成圖像對應的mask。利用這種方式能夠有效的生成大量高質(zhì)量的數據,增加數據的多樣性。


小視科技奪冠!大模型競賽“一冠一季”收入囊中  CVPR 2023 VIZWIZ Grand Challenge 4.png

生成圖像及其mask的流程



我們以SelfReFormer作為基礎框架,利用視覺(jué)大模型預訓練權重提升了圖像編碼器(ImageEncoder)特征提取的能力。


小視科技奪冠!大模型競賽“一冠一季”收入囊中  CVPR 2023 VIZWIZ Grand Challenge 5.png

圖像編碼器參數量對比


小視科技奪冠!大模型競賽“一冠一季”收入囊中  CVPR 2023 VIZWIZ Grand Challenge 6.png

SelfReformer模型架構圖


通過(guò)加入T2T模塊的轉化,將多個(gè)尺度特征進(jìn)行融合,增加了模型對顯著(zhù)性目標的鑒別能力,帶來(lái)了穩定的漲點(diǎn)。


小視科技奪冠!大模型競賽“一冠一季”收入囊中  CVPR 2023 VIZWIZ Grand Challenge 7.png

T2T模塊多尺度示意圖


除此之外,我們利用投票機制進(jìn)行模型選擇,最終融合了SwinTransFormerv2和Dinov2兩個(gè)編碼器的結果。其他的trick比如二值化閾值調整、不同尺寸的腐蝕操作都會(huì )有微小的漲點(diǎn)。


小視科技奪冠!大模型競賽“一冠一季”收入囊中  CVPR 2023 VIZWIZ Grand Challenge 8.png


我們的方案共有Sm、Em、Iou三項指標位列第一,總排名第一。


03 視覺(jué)問(wèn)答賽道 小視季軍方案



視覺(jué)問(wèn)答任務(wù)要求模型理解問(wèn)題的語(yǔ)義、圖像的視覺(jué)內容以及兩者之間的關(guān)系,回答基于圖像的問(wèn)題。


VIZWIZ VQA數據集中,每個(gè)問(wèn)題都收集了10個(gè)人的回答。采集的圖片存在拍攝場(chǎng)景不完整、模糊或不清晰,收集的問(wèn)題和回答也較為口語(yǔ)化。


官方提供了20523個(gè)圖片-問(wèn)題對作為訓練集,4319個(gè)作為驗證集,8000個(gè)作為測試集。


小視科技奪冠!大模型競賽“一冠一季”收入囊中  CVPR 2023 VIZWIZ Grand Challenge 9.png

官方數據集


數據增廣上,我們使用與顯著(zhù)性賽道相似的方式增加數據的多樣性,使用多模態(tài)大模型生成對應的問(wèn)題-答案對,有效擴充了圖片和語(yǔ)料數據。


我們以Blip2作為基礎框架。對語(yǔ)料進(jìn)行了prompt增強,對視覺(jué)和語(yǔ)言大模型結合的部分Q-Former進(jìn)行微調,LLM部分適配T5,VIT-L, VIT-G等多種大模型預測回答的結果,最終基于投票機制對多個(gè)模型的預測結果進(jìn)行融合。


小視科技奪冠!大模型競賽“一冠一季”收入囊中  CVPR 2023 VIZWIZ Grand Challenge 10.png

Blip2模型架構圖


在本次比賽中,我們不僅豐富了在視覺(jué)大模型領(lǐng)域的技術(shù)棧,更是基于大模型強大的特征表示和模式識別能力,提升了生產(chǎn)算法在目標檢測、追蹤、分類(lèi),分割任務(wù)上的精度和場(chǎng)景泛化性,加速了我們的算法在各種復雜場(chǎng)景下的落地和實(shí)際應用能力。


比賽落幕,小視團隊在全球AI開(kāi)發(fā)者面前充分展示了自身的技術(shù)硬實(shí)力。


“一冠一季”的好成績(jì)收入囊中后,小視團隊希望能為計算機視覺(jué)技術(shù)的發(fā)展,尤其是大模型應用探索更多的落地空間,為AI惠及智慧城市、工業(yè)生產(chǎn)、機器人等領(lǐng)域積累更多技術(shù)儲備。