當(dāng)追蹤者和目標(biāo)都在低空高速飛行,傳統(tǒng)的視覺追蹤算法還能跟得住嗎?
近日,來自云從科技、上海交通大學(xué)、香港科技大學(xué)(廣州)、中山大學(xué)、中國科學(xué)院信息工程研究所的聯(lián)合研究團(tuán)隊(duì)發(fā)布了一項(xiàng)硬核工作——UAV-Anti-UAV。這是業(yè)界首個(gè)針對“空對空”(Air-to-Air)場景的百萬級多模態(tài)反無人機(jī)視覺追蹤基準(zhǔn),并提出了基于Mamba的強(qiáng)力基線MambaSTS。MambaSTS在UAV-Anti-UAV基準(zhǔn)的全部5個(gè)指標(biāo)上均取得最佳的性能,這是云從科技在多模態(tài)大模型方面的又一次技術(shù)突破。面對雙重動(dòng)態(tài)干擾,現(xiàn)有的SOTA表現(xiàn)如何?讓我們一探究竟!
01引言:從“上帝視角”到“空中纏斗”
在低空經(jīng)濟(jì)蓬勃發(fā)展的今天,無人機(jī)(UAV)的安全管控已成為全球關(guān)注的焦點(diǎn)。反無人機(jī)(Anti-UAV)技術(shù)應(yīng)運(yùn)而生。
然而,回顧現(xiàn)有的視覺追蹤研究,我們發(fā)現(xiàn)了一個(gè)明顯的任務(wù)盲區(qū)(Gap):
l 傳統(tǒng)UAVTracking(空對地):無人機(jī)處于“上帝視角”拍攝地面的車輛或行人,雖然相機(jī)在動(dòng),但目標(biāo)相對地面運(yùn)動(dòng)平穩(wěn)。
l 現(xiàn)有Anti-UAV(地對空):地面固定的云臺(tái)/相機(jī)仰拍空中的無人機(jī),觀察者幾乎靜止,缺乏運(yùn)動(dòng)帶來的劇烈抖動(dòng)
如果是一架無人機(jī)在高速飛行中,去追蹤另一架試圖逃逸的敵對無人機(jī)呢?這種場景就像是電影里的空中纏斗(Dogfight)
圖1:直觀對比了Task1(UAVTracking)、Task2(Anti-UAV)和本文提出的Task3(UAV-Anti-UAV)。Task3中Observer和Target都在低空高速運(yùn)動(dòng)。
這就是本文提出的UAV-Anti-UAV(空對空)任務(wù)。這是一個(gè)雙向動(dòng)態(tài)系統(tǒng):追蹤者和目標(biāo)都在低空高速運(yùn)動(dòng)。這帶來了前所未有的挑戰(zhàn):嚴(yán)重的雙重動(dòng)態(tài)干擾(Dual-dynamicdisturbances)、極速的尺度變化、強(qiáng)烈的運(yùn)動(dòng)模糊以及頻繁的視角切換。
為了攻克這一難題,研究團(tuán)隊(duì)構(gòu)建了首個(gè)大規(guī)模基準(zhǔn)數(shù)據(jù)集UAV-Anti-UAVBenchmark。這不只是一個(gè)數(shù)據(jù)集,更是一個(gè)低空安全的標(biāo)準(zhǔn)測試床。
l 規(guī)模龐大:包含1,810個(gè)視頻序列,總幀數(shù)高達(dá)105萬幀,總時(shí)長近9.85小時(shí)。
l 機(jī)型豐富:涵蓋5大類目標(biāo),包括固定翼、多旋翼、垂直起降(VTOL)、第一人稱視角(FPV)無人機(jī)和無人直升機(jī)。
l 多模態(tài)標(biāo)注:不僅有精細(xì)的邊界框(BoundingBox),還提供了自然語言描述(LanguagePrompts),支持視覺-語言追蹤研究。
l 細(xì)粒度屬性:標(biāo)注了15種極具挑戰(zhàn)的屬性,如快速運(yùn)動(dòng)(FM)、光照變化(IV)、相似干擾物(SD)等。
圖2:數(shù)據(jù)集中包含五種不同類型的無人機(jī)目標(biāo)(固定翼、FPV、多旋翼、垂直起降、無人直升機(jī))以及對應(yīng)的語言描述。
相比于現(xiàn)有的數(shù)據(jù)集,UAV-Anti-UAV是“地獄難度”。
l 相對速度:該數(shù)據(jù)集的平均相對速度高達(dá)0.79,遠(yuǎn)超現(xiàn)有的UAV123(0.46)和Anti-UAV(0.72)等數(shù)據(jù)集。
l 目標(biāo)尺寸:包含大量微小目標(biāo)(SmallObject),且由于距離變化,尺度變化(ScaleVariation)極其劇烈。
圖3:硬核數(shù)據(jù)證明該數(shù)據(jù)集在運(yùn)動(dòng)強(qiáng)度上的獨(dú)特性。
面對如此高難度的任務(wù),傳統(tǒng)的Transformer由于計(jì)算復(fù)雜度高,難以處理超長序列;而普通的CNN又缺乏全局感知能力。為此,作者提出了新基線:MambaSTS。
這是一個(gè)集成了空間(Spatial)、時(shí)間(Temporal)、語義(Semantic)學(xué)習(xí)的統(tǒng)一框架。其核心邏輯在于:利用Mamba(狀態(tài)空間模型)的線性復(fù)雜度優(yōu)勢來建立視頻級的長期上下文。
圖4:模型主架構(gòu)圖,展示了多模態(tài)輸入(圖像+文本)、STSMamba模塊以及層級化的特征提取過程。
混合架構(gòu)(HybridArchitecture):
1. 視覺端:利用分層視覺Transformer(HiViT)提取多尺度特征,捕捉空間細(xì)節(jié)。
2. 語言端:利用預(yù)訓(xùn)練的LanguageMamba提取語義特征,引入文本先驗(yàn),幫助模型在模糊中“認(rèn)出”目標(biāo)。
時(shí)間Token傳播(TemporalTokenPropagation):
這是本文的“殺手锏”。模型維護(hù)一個(gè)時(shí)間Token,像接力棒一樣在幀與幀之間傳遞。
利用Mamba的選擇性掃描機(jī)制,將歷史幀中目標(biāo)的軌跡演變和外觀變化壓縮進(jìn)這個(gè)Token中。這仿佛讓模型擁有了“視頻記憶”,即便目標(biāo)被遮擋或模糊,也能基于記憶快速找回。
單向掃描機(jī)制(UnidirectionalScanning):
不同于處理靜態(tài)圖像的VisionMamba(Vim)使用雙向掃描,MambaSTS針對視頻追蹤的因果特性(即當(dāng)前狀態(tài)只取決于過去),改進(jìn)為單向掃描,更符合實(shí)時(shí)追蹤邏輯。
作者對50個(gè)現(xiàn)代深度追蹤算法進(jìn)行了全面評測,涵蓋了CNN、Transformer、Mamba以及多模態(tài)算法(如OSTrack,MixFormer,MambaTrack,CiteTracker等)。
l MambaSTS遙遙領(lǐng)先:在所有指標(biāo)上均取得第一,AUC達(dá)到0.437,mACC達(dá)到0.443,比第二名高出6.6個(gè)百分點(diǎn)。
l 任務(wù)難度極大:即便是SOTA的MambaSTS,成功率也僅為40%出頭,而所有追蹤器的平均AUC僅為0.30左右。這說明UAV-Anti-UAV領(lǐng)域仍是一片藍(lán)海,挑戰(zhàn)巨大!
圖5:AUC、Precision等指標(biāo)的曲線圖,MambaSTS的曲線(最上方)直觀體現(xiàn)了其優(yōu)勢。
圖6:50個(gè)追蹤器的mACC排名散點(diǎn)圖,MambaSTS位于右上角,大幅領(lǐng)先。
通過對15個(gè)屬性的細(xì)分測試,研究發(fā)現(xiàn):
l MambaSTS的強(qiáng)項(xiàng):在快速運(yùn)動(dòng)(FM)、運(yùn)動(dòng)模糊(MB)、小物體(SO)等屬性上表現(xiàn)穩(wěn)健,得益于其強(qiáng)大的時(shí)序建模能力。
l 共同的弱點(diǎn):在光照變化(IV)和全遮擋(FO)場景下,所有模型(包括MambaSTS)都表現(xiàn)掙扎,成功率低于0.15。這指明了未來的優(yōu)化方向。
圖7:具有代表性的屬性子圖(如FastMotion,MotionBlur,FullOcclusion)。
除了在自家數(shù)據(jù)集上表現(xiàn)出色,MambaSTS在傳統(tǒng)的UAVTracking數(shù)據(jù)集(如UAV123,VisDrone)和地面Anti-UAV數(shù)據(jù)集上,同樣取得了SOTA性能。這證明了該架構(gòu)并非“過擬合”,而是真正掌握了時(shí)空特征的精髓。
UAV-Anti-UAV任務(wù)的提出,標(biāo)志著低空安全研究向?qū)崙?zhàn)化邁出了重要一步。
l 新任務(wù):填補(bǔ)了空對空動(dòng)態(tài)追蹤的空白。
l 新數(shù)據(jù):百萬級規(guī)模,多模態(tài)標(biāo)注,為社區(qū)提供了標(biāo)準(zhǔn)測試床。
l 新基線:MambaSTS證明了狀態(tài)空間模型在長序列動(dòng)態(tài)追蹤中的巨大潛力。
雖然MambaSTS表現(xiàn)出色,但距離解決全天候、全自主的空中攔截仍有距離(例如缺乏紅外/LiDAR數(shù)據(jù),且目前為離線訓(xùn)練)。挑戰(zhàn)已經(jīng)擺在面前,各位開發(fā)者,你們準(zhǔn)備好迎接“空戰(zhàn)”了嗎?
??開源地址:
https://github.com/983632847/Awesome-Multimodal-Object-Tracking
l 參考論文:ChunhuiZhang,LiLiu,ZhipengZhang,YongWang,HaoWen,XiZhou,ShimingGe,YanfengWang.“HowFarareModernTrackersfromUAV-Anti-UAV?AMillion-ScaleBenchmarkandNewBaseline”,arXiv,2025.
立即下載:
https://arxiv.org/abs/2512.07385
近日,云從科技與重慶大學(xué)大數(shù)據(jù)與軟件學(xué)院聯(lián)合研發(fā)的編程智能體——CoSEFA(Code SEcurity and Fix Agent)被軟件工程領(lǐng)域頂尖會(huì)議ACM SIGSOFT軟件工程基礎(chǔ)國際會(huì)議(FSE 2025)正式錄用。
云從科技在視覺大模型上取得重要進(jìn)展,行人基礎(chǔ)大模型在PA-100K、RAP V2、PETA、HICO-DET四個(gè)數(shù)據(jù)集上從阿里巴巴、日立等多家知名高校、企業(yè)與研究機(jī)構(gòu)脫穎而出,刷新了世界紀(jì)錄。
當(dāng)追蹤者和目標(biāo)都在低空高速飛行,傳統(tǒng)的視覺追蹤算法還能跟得住嗎? 近日,來自云從科技、上海交通大學(xué)、香港科技大學(xué)(廣州)、中山大學(xué)、中國科學(xué)院信息工程研究所的聯(lián)合研究團(tuán)隊(duì)發(fā)布了一項(xiàng)硬核工作——UAV-Anti-UAV。這是業(yè)界首個(gè)針對“空對空”(Air-to-Air)場景的百萬級多模態(tài)反無人機(jī)視覺追蹤基準(zhǔn),并提出了基于Mamba的強(qiáng)力基線MambaSTS。MambaSTS在UAV-Anti-UAV基準(zhǔn)的全部5個(gè)指標(biāo)上均取得最佳的性能,這是云從科技在多模態(tài)大模型方面的又一次技術(shù)突破。面對雙重動(dòng)態(tài)干擾,現(xiàn)有的SOTA表現(xiàn)如何?讓我們一探究竟!
周一到周五9:30-18:00(北京時(shí)間)

商務(wù)合作:business@cloudwalk.com

媒體合作:Media@cloudwalk.com

渠道合作:business_partner@cloudwalk.com

人才招聘:zhaopin@cloudwalk.com
Copyright?2026 粵公網(wǎng)安備 44011502001099號(hào)
粵ICP備15087156號(hào) 云從科技集團(tuán)股份有限公司