近日,云從科技在視覺大模型上取得重要進(jìn)展,行人基礎(chǔ)大模型在PA-100K、RAP V2、PETA、HICO-DET四個(gè)數(shù)據(jù)集上從阿里巴巴、日立等多家知名高校、企業(yè)與研究機(jī)構(gòu)脫穎而出,刷新了世界紀(jì)錄。
其中最高在PA100K上的Fine-tuning準(zhǔn)確率達(dá)到92.89%,比SOTA高出5.2個(gè)點(diǎn),四個(gè)數(shù)據(jù)集所涉及的范圍覆蓋人體全局屬性(性別、年齡),局部屬性(穿戴風(fēng)格、配飾),攜帶屬性(手機(jī)、刀棍、手提包等)、人-物交互HOI(抽煙,持刀棍,手機(jī)拍屏幕)等。
表1:云從科技在PA-100K、RAP V2、PETA行人屬性數(shù)據(jù)集上的表現(xiàn)
作為“六感”之首的視覺,占據(jù)了人類吸收外部信息的70%以上。對(duì)于人工智能也一樣,行人基礎(chǔ)大模型讓人工智能如何識(shí)別關(guān)于人的一切信息,準(zhǔn)確率的提高具有非常高的實(shí)用價(jià)值,本次突破意味著該技術(shù)首次達(dá)到大規(guī)模商用水平,也意味著計(jì)算機(jī)視覺已經(jīng)邁入「大模型時(shí)代」。
多模態(tài)結(jié)合自監(jiān)督學(xué)習(xí) 打造全球領(lǐng)先核心技術(shù)
以人為中心的感知任務(wù),一直是人工智能領(lǐng)域研究的熱點(diǎn),大模型具有強(qiáng)大的表征能力,并且在多種數(shù)據(jù)模態(tài)(如語言、音頻、圖像、視頻、視覺語言)上得到驗(yàn)證。行人基礎(chǔ)大模型已經(jīng)發(fā)展成為視覺大模型基礎(chǔ),云從科技結(jié)合實(shí)際業(yè)務(wù)落地需求,研發(fā)以人為中心的預(yù)訓(xùn)練大模型,專注于以人為中心的各類下游任務(wù),實(shí)踐和貫徹“人機(jī)協(xié)同”理念。
表2:云從科技在HICO-DET人-物交互數(shù)據(jù)集上的表現(xiàn)
云從行人基礎(chǔ)大模型,使用了超過20億的數(shù)據(jù),包括大量無標(biāo)簽數(shù)據(jù)集以及圖文多模態(tài)數(shù)據(jù)集,數(shù)據(jù)集的豐富多樣使得模型能夠提取到非常穩(wěn)健的特征,輕松應(yīng)用于多種行人任務(wù)。
基于自監(jiān)督學(xué)習(xí)范式,云從科技充分結(jié)合了對(duì)比學(xué)習(xí)和掩碼學(xué)習(xí)的優(yōu)點(diǎn),使得模型包含豐富的語義信息,同時(shí)具有豐富的紋理細(xì)節(jié)提取能力。為了讓模型學(xué)習(xí)擁有更加豐富的行人語義信息,結(jié)合多模態(tài)繼續(xù)使用弱監(jiān)督訓(xùn)練范式,進(jìn)一步提升模型的效果。
在實(shí)際應(yīng)用場(chǎng)景中,大模型與針對(duì)單一任務(wù)的專用模型相比,表現(xiàn)出很強(qiáng)的泛化性,可以大大節(jié)約對(duì)真實(shí)數(shù)據(jù)的需求,甚至不需要額外收集真實(shí)數(shù)據(jù),極大節(jié)省了在下游任務(wù)上的遷移成本,可快速將大模型能力遷移到新的應(yīng)用場(chǎng)景之中,并且可廣泛應(yīng)用于能源、交通、制造、金融等行業(yè)領(lǐng)域,并為這些行業(yè)打造專屬的行業(yè)大模型,深度賦能。
基于基礎(chǔ)預(yù)訓(xùn)練模型 大幅降低研發(fā)成本
傳統(tǒng)的行人檢測(cè)和分析存在諸多難點(diǎn),包括缺乏對(duì)場(chǎng)景的理解,只能檢測(cè)出所有目標(biāo);其次行人的某些特征非常細(xì)微,需要模型具有細(xì)粒度的識(shí)別能力,各種大姿態(tài)和環(huán)境干擾容易造成影響;最后,對(duì)行人的檢測(cè)分析需求多變,層出不窮,大部分需要定制化開發(fā)。如何能夠降低開發(fā)成本,在技術(shù)產(chǎn)業(yè)化的過程中非常關(guān)鍵。
基于從容大模型平臺(tái),開發(fā)者可以大幅降低對(duì)數(shù)據(jù)的依賴和提升訓(xùn)練效率,僅需要1%的數(shù)據(jù)量即可達(dá)到與原場(chǎng)景定制化開發(fā)模型相接近的效果,適合獲取真實(shí)樣本代價(jià)非常高的特殊行業(yè)。
目前,該技術(shù)已廣泛應(yīng)用于礦山、建筑工地以及特殊場(chǎng)所的安全布控,監(jiān)控作業(yè)人員穿戴合規(guī),姿態(tài)行為等異常和違規(guī)行為。
此前,云從科技跨鏡追蹤技術(shù)于2018-2020連續(xù)三年三次打破世界紀(jì)錄,行人基礎(chǔ)大模型的突破,表明云從從容大模型已經(jīng)整合西部算力中心、聯(lián)合研發(fā)中心、行業(yè)數(shù)據(jù)等資源,打造出了更優(yōu)秀的人工智能視覺大模型,為實(shí)現(xiàn)人機(jī)協(xié)同操作系統(tǒng)和行業(yè)專用大模型在行業(yè)智能化升級(jí)領(lǐng)域的大規(guī)模實(shí)踐打下了堅(jiān)實(shí)的基礎(chǔ)。
云從科技在視覺大模型上取得重要進(jìn)展,行人基礎(chǔ)大模型在PA-100K、RAP V2、PETA、HICO-DET四個(gè)數(shù)據(jù)集上從阿里巴巴、日立等多家知名高校、企業(yè)與研究機(jī)構(gòu)脫穎而出,刷新了世界紀(jì)錄。
近日,ICCV2023 細(xì)粒度行為檢測(cè)挑戰(zhàn)賽(Open Fine Grained Activity Detection Challenge)順利結(jié)束,云從科技在行為分類賽道(以下簡(jiǎn)稱OpenFAD23-ICCV23)中斬獲冠軍。
當(dāng)追蹤者和目標(biāo)都在低空高速飛行,傳統(tǒng)的視覺追蹤算法還能跟得住嗎? 近日,來自云從科技、上海交通大學(xué)、香港科技大學(xué)(廣州)、中山大學(xué)、中國(guó)科學(xué)院信息工程研究所的聯(lián)合研究團(tuán)隊(duì)發(fā)布了一項(xiàng)硬核工作——UAV-Anti-UAV。這是業(yè)界首個(gè)針對(duì)“空對(duì)空”(Air-to-Air)場(chǎng)景的百萬級(jí)多模態(tài)反無人機(jī)視覺追蹤基準(zhǔn),并提出了基于Mamba的強(qiáng)力基線MambaSTS。MambaSTS在UAV-Anti-UAV基準(zhǔn)的全部5個(gè)指標(biāo)上均取得最佳的性能,這是云從科技在多模態(tài)大模型方面的又一次技術(shù)突破。面對(duì)雙重動(dòng)態(tài)干擾,現(xiàn)有的SOTA表現(xiàn)如何?讓我們一探究竟!
周一到周五9:30-18:00(北京時(shí)間)

商務(wù)合作:business@cloudwalk.com

媒體合作:Media@cloudwalk.com

渠道合作:business_partner@cloudwalk.com

人才招聘:zhaopin@cloudwalk.com
Copyright?2026 粵公網(wǎng)安備 44011502001099號(hào)
粵ICP備15087156號(hào) 云從科技集團(tuán)股份有限公司