近日,AAAI 2026公布了論文錄用結(jié)果,該會議是人工智能領(lǐng)域的國際頂級會議之一。據(jù)介紹,AAAI 2026共收到23,680份論文投稿,其中4,167篇論文被錄用,錄用率僅為17.6%。由小鵬汽車和北京大學(xué)計算機學(xué)院多媒體信息處理全國重點實驗室聯(lián)合完成的論文《FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》成功入選。
這一論文有四大創(chuàng)新:
1、提出了FastDriveVLA,一種新穎的基于重建的Token剪枝框架,它不同于現(xiàn)有的基于注意力的和基于相似性的剪枝方法。
2、設(shè)計了ReconPruner,這是一種通過MAE風(fēng)格像素重建訓(xùn)練的、即插即用的剪枝器,并引入了一種新穎的對抗性前景-背景重建策略,以增強其識別有價值Token的能力。
3、構(gòu)建了nuScenes-FG數(shù)據(jù)集,包含針對自動駕駛場景的前景分割標(biāo)注,總計包含24.1萬個圖像-掩碼對。
4、這一方法專為端到端自動駕駛VLA模型定制,并在nuScenes開環(huán)規(guī)劃基準(zhǔn)測試中實現(xiàn)了SOTA性能(即當(dāng)前最優(yōu)的效果)。
當(dāng)然,這篇論文最大的貢獻(xiàn)在于第一項創(chuàng)新,它提出了一種專門為端到端自動駕駛VLA模型定制的、高效的視覺Token剪枝框架——FastDriveVLA。
隨著AI大模型技術(shù)的加速演進(jìn),VLA(視覺-語言-動作)模型由于在復(fù)雜場景理解與動作推理方面展示出巨大潛力,正在被廣泛地應(yīng)用于端到端自動駕駛系統(tǒng)中。
VLA模型在處理視覺信息時,會將圖像編碼為海量視覺Token(詞元)。視覺Token是VLA模型“看懂世界”,并“做出決策”的基石,其質(zhì)量、數(shù)量與選擇策略直接決定模型的性能、效率與可信度。
然而,直接轉(zhuǎn)換的處理方式會導(dǎo)致車端計算負(fù)荷變大,同時還會影響模型的推理效率和決策執(zhí)行。
此前,視覺Token剪枝已被證實了是加速VLA模型推理的可行方法之一。
但傳統(tǒng)的視覺Token剪枝方法或依賴文本-視覺注意力關(guān)聯(lián),或基于Token相似度去重,在駕駛場景中均存在明顯局限。
為了解決這一問題,小鵬汽車聯(lián)合北大共同提出了FastDriveVLA——一種專門為自動駕駛設(shè)計的、基于重建視覺Token剪枝框架。
該框架的提出受到了人類駕駛員在駕駛時會專注于相關(guān)前景信息(如行人、道路、車輛、交通標(biāo)志、交通信號燈、交通障礙物)的啟發(fā),引入了一種新穎的對抗性前景-背景重建策略,以增強VLA模型識別有價值Token的能力,從而教會AI“像人一樣開車”,自動過濾無關(guān)緊要的視覺信息,只關(guān)注有用的核心信息。

▲FastDriveVLA 框架
在訓(xùn)練階段,論文中提出了一種新穎的“前景-背景對抗重建”策略,以增強 ReconPruner 對前景視覺 Token 的感知能力;在推理階段,ReconPruner可直接嵌入自動駕駛VLA模型,用于 Token 剪枝。
FastDriveVLA包含一個即插即用的視覺Token剪枝器ReconPruner。
在車端模型的推理階段, ReconPruner可直接嵌入自動駕駛VLA模型用于視覺Token的剪枝,即插即用,無需重新訓(xùn)練整個模型。
為了輔助該剪枝器的訓(xùn)練,還專門構(gòu)建了包含來自6個攝像頭視角的24.1萬個圖像-掩碼對的nuScenes-FG數(shù)據(jù)集。這一大規(guī)模的自動駕駛前景分割標(biāo)注數(shù)據(jù)集,可廣泛用于未來自動駕駛的研究。

▲nuScenes-FG。該數(shù)據(jù)集為 nuScenes 場景提供了 24.1 萬個前景分割標(biāo)注。
這種“去繁從簡”只關(guān)注核心駕駛信息的思路,讓FastDriveVLA取得了驚艷的效果。最終,nuScenes自動駕駛數(shù)據(jù)集上的測試顯示,采用這一剪枝框架,在不同剪枝率下均取得當(dāng)前最優(yōu)即SOTA效果:
l 剪枝比例達(dá)25%視覺Token時,駕駛性能幾乎不下降,其L2軌跡誤差與碰撞率指標(biāo)甚至超越未剪枝的基準(zhǔn)模型;
l 剪枝比例達(dá)50%Token時,在所有指標(biāo)上表現(xiàn)更平衡;
l 與此同時,VLA模型的推理效率得到了顯著提升。當(dāng)視覺Token數(shù)量從 3249減少到 812時,F(xiàn)astDriveVLA 實現(xiàn)了近7.5倍的計算量(FLOPs)減少。在 CUDA (指從GPU啟動一個計算任務(wù)到真正拿到該任務(wù)的計算結(jié)果之間所經(jīng)歷的時間)延遲方面,F(xiàn)astDriveVLA 將預(yù)填充時間(prefill)與解碼時間(decode)分別減少了 3.7倍與1.3倍。
小鵬汽車聯(lián)合北大提出的FastDriveVLA,建立了自動駕駛VLA模型的高效視覺Token剪枝的新范式,同時樹立了車端大模型高效部署上車的新標(biāo)桿。
此次論文入選AAAI 2026,是小鵬汽車今年第二次參與人工智能領(lǐng)域的國際頂級會議。早在今年6月,小鵬汽車曾作為CVPR WAD唯一邀請演講中國車企,分享自動駕駛基座模型研發(fā)進(jìn)展。在今年11月的科技日上,小鵬汽車正式推出第二代VLA,創(chuàng)新性地去掉了“語言轉(zhuǎn)譯”環(huán)節(jié),首次實現(xiàn)從視覺信號到動作指令的端到端直接生成,顛覆了行業(yè)傳統(tǒng)的「V-L-A」架構(gòu),探索全新物理AI模型范式。這些成果都為全球自動駕駛的研究和實踐注入了全新的動力。
這一系列成果也彰顯了小鵬汽車從模型架構(gòu)設(shè)計、模型訓(xùn)練到模型蒸餾、部署上車的全棧自研能力。
未來,小鵬汽車將繼續(xù)以L4為目標(biāo),在AI大模型領(lǐng)域加大投入,加速物理AI大模型上車,讓更安全、高效、舒適的智駕體驗惠及全球用戶。
x
-
對話朱西產(chǎn):L3落地的時機與障礙 2026-02-09 12:07 -
固態(tài)電池尚遠(yuǎn),鈉電很近 2026-02-02 12:00
-
東風(fēng)轉(zhuǎn)型,嵐圖追光 | 回望2025 2026-01-20 10:45
-
技術(shù)向善,溫暖向前丨長城汽車冰雪歡樂周正式開啟 2026-02-07 12:10 -
問界與用戶共話冬季出行新體驗 2026-02-07 20:41 -
對話朱西產(chǎn):L3落地的時機與障礙 2026-02-09 12:07


京公網(wǎng)安備 11010502038466號
關(guān)注官方微信