那是小鵬智駕團(tuán)隊在今年二季度的一次日常VLA測試,路邊突然有人揮手讓他們停車,這位揮手的路人并不是一位可以被系統(tǒng)辨識的交警,但車輛居然按照他的手勢停了下來。
還有一次,測試車輛在路上等紅燈,但當(dāng)紅燈準(zhǔn)備轉(zhuǎn)綠、在讀秒的時候,車輛竟然開始非常緩慢絲滑的蠕動,然后待綠燈完全亮起,提速通過。
招手停、提前蠕行這是小鵬團(tuán)隊預(yù)期外的NGP功能,但系統(tǒng)自己開悟了。
那一刻,小鵬汽車自動駕駛負(fù)責(zé)人劉先明腦海里浮現(xiàn)了兩個字:涌現(xiàn)。
他想起了一句半開玩笑的話,人的成長靠頓悟,而人工智能的成長靠涌現(xiàn)。
經(jīng)過累計超過20億元的投入,基于3萬張卡的算力和相當(dāng)于一個普通人駕駛6.5萬年遇到的極限場景之和的近1億視頻Clips的深度學(xué)習(xí),還有一年多時間的試錯、煎熬,小鵬的第二代VLA成了。
01.
小鵬智駕「涌現(xiàn)」新門
2024年對于小鵬的智駕路線是具有歷史意義的一年。
這一年何小鵬不僅下定決心放棄雷視融合方案,全面押注視覺路線,同時也決定同步研發(fā)兩代VLA,而第二代VLA的研發(fā)正是由劉先明負(fù)責(zé)。
但在相當(dāng)長的一段時間內(nèi),第二代VLA的研發(fā)一直止步不前,劉先明表示其團(tuán)隊成員一度失去信心,團(tuán)隊高管甚至逃避參與報告會。
直到那個「涌現(xiàn)」時刻的突然出現(xiàn),似乎有一道門向我們打開了。
「涌現(xiàn)」原來是一個生物學(xué)概念,整整150年前,英國哲學(xué)家喬治·亨利·劉易斯在其著作《生命與心靈的問題》一書中闡述「鳥群自組織飛行」等群體行為時,提出「即使完全了解單個個體的所有行為,也無法預(yù)測群體層面涌現(xiàn)出的復(fù)雜模式?!?/p>
這是「涌現(xiàn)」概念首次被科學(xué)界接受。
20世紀(jì)初,昆蟲學(xué)家威廉·莫頓·惠勒發(fā)現(xiàn)雖然單個螞蟻的智力有限,但整個蟻群在沒有中央指揮的情況下卻可以完成筑巢、覓食等復(fù)雜任務(wù)。
惠勒將蟻群描述為「超個體(superorganism)」,其作為一個獨立行動者展現(xiàn)出「涌現(xiàn)進(jìn)化」的特性——整體大于部分之和。
1982年,約翰·霍普菲爾德(John Hopfield) 在論文《具有涌現(xiàn)集體計算能力的神經(jīng)網(wǎng)絡(luò)與物理系統(tǒng)》中,明確將螞蟻覓食路徑優(yōu)化作為涌現(xiàn)計算能力的經(jīng)典范例。
今天,人類已在蟻群、大腦神經(jīng)網(wǎng)絡(luò)、免疫系統(tǒng)、AI等領(lǐng)域清晰地觀察到了涌現(xiàn)現(xiàn)象。ChatGPT4這一生成式AI模型正是其訓(xùn)練數(shù)據(jù)和參數(shù)規(guī)模達(dá)到一定程度時,突然涌現(xiàn)出讓人驚嘆的理解能力。
螞蟻系統(tǒng)的涌現(xiàn)特性經(jīng)歷了從哲學(xué)思辨到科學(xué)實證再到技術(shù)應(yīng)用的完整發(fā)展歷程。
對于智駕系統(tǒng)而言,路上的行人、車輛等數(shù)據(jù)就如同一只只螞蟻,這些數(shù)據(jù)最終能催生一個螞蟻系統(tǒng)嗎?
11月5日,在小鵬汽車科技日上,何小鵬對外明確表示,基于第二代VLA的小鵬智駕系統(tǒng)已經(jīng)出現(xiàn)了涌現(xiàn)現(xiàn)象。
這些場景并未在訓(xùn)練數(shù)據(jù)中專門標(biāo)注,而是模型自我演進(jìn)的結(jié)果。
何小鵬強(qiáng)調(diào),涌現(xiàn)現(xiàn)象是持續(xù)發(fā)生的。
可以說,智駕正來到一個智能涌現(xiàn)的臨界點。
02.
去掉L的第二代VLA大模型
在智駕領(lǐng)域,關(guān)于VLA是不是一條必經(jīng)之路,業(yè)內(nèi)尚存在爭論的時候,小鵬汽車的第二代VLA會不會是新的名詞營銷呢?
VLA即Vision-Language-Action(視覺-語言-動作)是一種融合視覺、語言與動作三大模態(tài)的端到端大模型。
其核心突破在于打通「感知-決策-控制」全流程,通過多模態(tài)大模型直接輸出控制信號,減少傳統(tǒng)模塊化架構(gòu)的信息損耗。
這一模型早期主要應(yīng)用于機(jī)器人領(lǐng)域。
小鵬汽車、理想則成為將VLA最早引入智駕的兩大整車廠。
小鵬汽車推出的第二代VLA,最大的變化即是去掉了「語言轉(zhuǎn)譯」環(huán)節(jié)。
這一變化的通俗理解即是,通過從視覺信號到動作指令的端到端直接生成,不再需要將視覺信息轉(zhuǎn)化為文本描述,再轉(zhuǎn)為控制指令,而是直接學(xué)習(xí)物理世界的交互規(guī)律。
小鵬汽車自動駕駛負(fù)責(zé)人劉先明表示,去掉VLA中的L,是小鵬團(tuán)隊認(rèn)為的、更大規(guī)模使用數(shù)據(jù)的前提。
劉先明解釋稱,過去幾年AI發(fā)展的最大原動力來自于不停的使用規(guī)模數(shù)據(jù)訓(xùn)練,但如果想要更大規(guī)模地使用數(shù)據(jù),一定要拆掉所有的separation(模塊界限),讓它變成一種「自監(jiān)督」模式。
「很多VLA架構(gòu)基本都是圖像進(jìn)來,通過一個大語言模型最終輸出——Meta action(高級抽象的動作指令),Meta action一般是文字,然后再通過文字的方式處理后輸出。這種方式最大的好處是有眾多開源模型可以使用,可以直接拿開源的NLP模型來做推理?!?/p>
但只要有語言存在,就一定涉及到人工的篩選或標(biāo)注,比如一段1200多字的文字描述也無法精準(zhǔn)地「翻譯」一個十幾秒的視頻:
「這樣會讓數(shù)據(jù)使用的規(guī)模受到限制,而一個系統(tǒng)只有去掉所有中間瓶頸,才可能大規(guī)模地做起來。」
而以視覺為核心,把模型看到的世界直接轉(zhuǎn)換成運動軌跡,就可以直接利用海量的真實駕駛視頻進(jìn)行訓(xùn)練,而無需任何人工數(shù)據(jù)標(biāo)注。
這是小鵬選擇去掉L的底層邏輯。
但實際上,小鵬的第二代VLA并沒有完全拋棄L,在何小鵬給出的模型架構(gòu)圖中,L被當(dāng)作V的并行信號,同時輸入給模型,以產(chǎn)出Action(動作)。
「我們說V+L,強(qiáng)調(diào)的是轉(zhuǎn)譯環(huán)節(jié)沒有變成人類的語言和格式,而是變成了一個物理世界的新語言,所以它不是人類可見、可認(rèn)知的語言,但效率更高、信息更豐富。」
第二代VLA讓自動駕駛回到了劉先明認(rèn)為的物理世界交互的本質(zhì):直接輸出控制信號。
「如果我最終輸出的信號直接是‘行為’,它其實包含了重建、理解、生成和最后推進(jìn)的所有過程。如果可以用更大規(guī)模的數(shù)據(jù)、更大的模型將這件事做下來,理論上就可以解決這個問題?!?/p>
小鵬智駕團(tuán)隊的這一做法,在智駕網(wǎng)看來與DeepSeek團(tuán)隊最新開源的一項技術(shù)突破——《DeepSeek-OCR: Contexts Optical Compression》有異曲同工之處。
該論文通過實驗數(shù)據(jù)展示了通過圖像壓縮技術(shù)來處理文本,從而實現(xiàn)大模型上下文窗口的10倍級無損擴(kuò)展。
這一技術(shù)的核心是將文本處理成視覺token,也就是將文字渲染成圖像,并直接編碼成模型能理解的語義單元。
這意味著,這些視覺token本身就是模型可以直接使用的語義信息,無需額外的解壓步驟。視覺token不僅節(jié)省空間,提高了處理效率,并在推薦算法和多模態(tài)交互方面提供了增強(qiáng)體驗。
將VLA變?yōu)閂+L,正是利用了視覺數(shù)據(jù)的優(yōu)勢,解決了一個一個文字信號的數(shù)據(jù)結(jié)構(gòu)化和離散性,容易導(dǎo)致大量信息損失的缺陷。
而視頻包括其它傳感器的數(shù)據(jù)都是連續(xù)信號,輸出空間也是連續(xù)的,這對于智駕系統(tǒng)在控制車輛時保持信號的連續(xù)性有天然優(yōu)勢。
劉先明以剎車信號為例:看似是0.21和0.22的區(qū)別,兩個信號的差異不是0.1的問題,而是撞和不撞的問題,這是個連續(xù)信號,沒有辦法通過離散化的Token方式輸出它。
換句話說,第二代VLA讓何小鵬堅持的視覺智駕技術(shù)路線具備了先天優(yōu)勢,當(dāng)然這一優(yōu)勢尚需工程和量產(chǎn)驗證。
但現(xiàn)在第二代VLA帶來的驚喜和突破已讓小鵬的智駕團(tuán)隊篤信:
「一個全新的大門正在打開。我們有能力在未來給大家?guī)砀踩⒏z滑、更強(qiáng)力的自動駕駛系統(tǒng),我們打算全力以赴在新版本的VLA里面向前。」
「新一代VLA讓小鵬自動駕駛的升級換代節(jié)點提前了近兩年?!?/p>
在外界來看,目前小鵬智駕團(tuán)隊公布的現(xiàn)象和細(xì)節(jié)尚有不足,對于智駕系統(tǒng)自我進(jìn)化的能力缺乏第三方驗證。
小鵬團(tuán)隊表示,一方面會在第二代VLA正式發(fā)布時公布更多的細(xì)節(jié),另一方面也是應(yīng)對激烈競爭的市場環(huán)境基于保密原則做的自我保護(hù)。
但小鵬汽車的研發(fā)架構(gòu)已進(jìn)行了迅速調(diào)整,側(cè)面印證了第二代VLA成功后帶來的影響。
在車端,小鵬團(tuán)隊針對圖靈AI芯片重新開發(fā)了針對性的編譯器和軟件棧。
得益于「芯片-算子-模型」全鏈路優(yōu)化,小鵬汽車最終做到了在算力高達(dá)2250TOPS的Ultra版車型上,搭載數(shù)十億級參數(shù)規(guī)模的第二代VLA,而行業(yè)普遍車端模型參數(shù)量目前尚停留在千萬級規(guī)模。
對于涌現(xiàn)是如何突然發(fā)生的,劉先明給出了一個十分「第一性」的解釋:
「大模型、大算力、大數(shù)據(jù),堆到一塊就變成了我們推出的模型,非常簡單的邏輯,背后原理非常簡單,也沒有什么復(fù)雜的故事?!?/p>
為了嘗試新的VLA模型,小鵬投入了3萬張卡的算力集群,燒了20多億的研發(fā)費用、和相當(dāng)于一個普通人駕駛6.5萬年遇到的極限場景之和的近1億視頻Clips。
簡言之,第二代VLA是在理順技術(shù)邏輯、擁有足夠投喂數(shù)據(jù)、車端硬件過硬的三重條件下「涌現(xiàn)」出來的。
「但是想把這件事情做好,背后的難度也是很大的,幾十個PB數(shù)據(jù)一口氣讀進(jìn)來,還要在千卡、萬卡的情況下保持穩(wěn)定,不要崩掉,應(yīng)該沒有人能在這個規(guī)模做得到?!?/p>
但需要注意的是,目前AI的「涌現(xiàn)」尚處于不可預(yù)測階段,甚至有一部分技術(shù)分析認(rèn)為其存在一些「玄學(xué)」特性。
這其實也是業(yè)內(nèi)當(dāng)初對VLA爭議的原因之一,但隨著更大規(guī)模的數(shù)據(jù)投喂,更多的訓(xùn)練,AI的不可預(yù)測性會向更合理性迭代。
03.
物理AI讓自動駕駛變得簡單
在今年年初,黃仁勛在CES的開幕演講中將人工智能的發(fā)展總結(jié)為四波浪潮:感知式AI——生成式AI——代理式AI——物理式AI。
他認(rèn)為:
「機(jī)器人技術(shù)的ChatGPT時刻即將到來?!?/p>
黃仁勛一手推開了物理AI的大門,并表示機(jī)器人和智駕是物理AI的兩大應(yīng)用場景。
什么是物理AI?
何小鵬在科技日上解釋說:
「當(dāng)數(shù)字世界和物理世界融合,將催生物理AI?!?/p>
在他看來,即使AI在數(shù)字世界中已展現(xiàn)出超越人類智慧的潛力,但如果無法與物理世界交互,其實際價值將極為有限。只有賦予AI「身體」,使其能走、能看、能交互,AI才能真正改變?nèi)祟惖纳a(chǎn)與生活方式。
在跑通第二代VLA之后,小鵬理解和推演的物理世界模型也隨之成型,它在理解真實世界交互規(guī)律的同時,進(jìn)行自我演進(jìn)式學(xué)習(xí),并且該模型可跨域驅(qū)動汽車、Robotaxi、機(jī)器人和飛行汽車。
為此,何小鵬在今年的科技日先后推出了全新一代人形機(jī)器人IRON、新一代飛行汽車,并公布了三款在研的Robotaxi計劃。
這是何小鵬判斷的數(shù)字世界和物理世界融合的開始。在這一新的技術(shù)趨勢下,將會誕生「擁有理解、交互和改變世界能力的機(jī)器」。
而自動駕駛放在物理AI的邏輯項下,在劉先明看來是最簡單的問題:
「你要嘗試去理解這個世界,對它做三維的建模,去推演整個世界要發(fā)生什么,做預(yù)測,再根據(jù)這些做出最安全、最符合人類意識的一種選擇,這就是物理AI的本質(zhì)?!?/p>
劉先明認(rèn)為,自動駕駛的所謂「簡單」體現(xiàn)在只有兩個自由度,向前的加速度和方向的轉(zhuǎn)角,相比于正常機(jī)器人來說,它的自由度會小很多,舒適空間會少很多,數(shù)據(jù)也更容易獲取。
「所以我們要解決物理AI 的問題,第一件事就是做自動駕駛,去解決最核心的問題?!?/p>
基于第二代VLA,小鵬汽車即將發(fā)布「小路NGP」功能,顯著提升復(fù)雜小路與混行環(huán)境下的智駕表現(xiàn),復(fù)雜小路的平均接管里程(MPI)提升了13倍。
此外,小鵬汽車還行業(yè)首發(fā)了「無導(dǎo)航自動輔助駕駛」Super LCC+人機(jī)共駕,它不依賴導(dǎo)航全球范圍均可開啟,在漫游的過程中輕轉(zhuǎn)方向盤,車輛即可協(xié)同完成變道和轉(zhuǎn)向。
對于第二代VLA,何小鵬已宣布面向全球商業(yè)伙伴開源,大眾汽車集團(tuán)將成為除小鵬外的第二代VLA首發(fā)客戶;「供應(yīng)商」正在成為小鵬的附帶身份之一。
與C端自動駕駛同步成行的,即是小鵬預(yù)告很久的Robotaxi。
硬件層面,小鵬的Robotaxi車型將搭載4顆圖靈AI芯片,車端算力達(dá)3000TOPS,包括2250TOPS運算算力和750TOPS冗余算力,并在算力、轉(zhuǎn)向、感知等多方面采用兩套硬件互為備份,官宣的三款車型將在車身尺寸和車內(nèi)布局上有所區(qū)分。
小鵬第二代VLA模型將成為小鵬Robotaxi的軟件基礎(chǔ),后續(xù)這一版本將命名為「Robo」,成為C端用車的全新智駕版本,與Robotaxi共享硬件配置和智駕能力,并提供兩種智駕模式選擇。
在何小鵬看來,相比于目前已經(jīng)在全球布局的Robotaxi公司,小鵬最大的優(yōu)勢是成本和技術(shù)。
首先是作為整車企業(yè),其Robotaxi的BOM成本和軟件開發(fā)成本都可以與乘用車共享。
其次,隨著第二代VLA帶來的能力提升,小鵬Robotaxi在大規(guī)模鋪開過程中無數(shù)據(jù)標(biāo)注、無信息損失,理論上來說只要這個地方有足夠多小鵬自己的車,就可以搞定這件事。
這一方面強(qiáng)化了泛化的能力,另一方面也能更高效地滿足監(jiān)管要求,為面向全球合作伙伴開放提供了可能。
「當(dāng)你解決了一個問題之后,你發(fā)現(xiàn)之前很多解決不了的難題,正在被新的方法論非常輕易地解決?!?/p>
04.
一款讓人激動、引發(fā)爭議的機(jī)器人
在何小鵬公布的第二代VLA序列推送的時間表中,先鋒共創(chuàng)體驗將于今年12月啟動,2026年一季度隨Ultra車型全量推送,Robotaxi業(yè)務(wù)同樣將在2026年發(fā)布并啟動試運營。
而機(jī)器人和飛行汽車,將是小鵬在未來十年改變世界的機(jī)器。
盡管依然不是量產(chǎn)版本,但小鵬第二代IRON機(jī)器人已成為小鵬今年最驚艷的一款產(chǎn)品,它引發(fā)了「究竟是不是真人」的廣泛關(guān)注,以至于何小鵬不得不臨時加演了一場現(xiàn)場「剪腿」自證并非真人表演。
這一次輿論喧囂,其實是引發(fā)了大眾對機(jī)器人領(lǐng)域的一個古老話題的關(guān)注:人形機(jī)器人是不是一定要做得高度類人?
何小鵬其實在第一時間向媒體解釋了三個原因:
第一,今天機(jī)器人想做到聰明,不能用規(guī)則,要用AI來驅(qū)動,只有從人類世界(才)可以學(xué)到最多的數(shù)據(jù)。
第二、家庭、工廠,實際上大部分都是為了方便人類去使用而設(shè)計、建造、運營的,所以如果它越像人,越容易適應(yīng)這個世界。
第三、類人容易增加親近感,從而促進(jìn)銷售實現(xiàn)規(guī)模化的正向循環(huán)。
小鵬汽車機(jī)器人副總裁、AI技術(shù)委員會負(fù)責(zé)人米良川(LC)在與智駕網(wǎng)溝通過程中則提到了一個讓業(yè)內(nèi)思考的工程問題:
「為什么機(jī)器人會長成特定的樣子?是因為機(jī)器人技術(shù)不夠強(qiáng)大或者不夠通用場景,當(dāng)你解決一個問題的時候,你會為一個場景做定制化的硬件,實際上就是一種Special designed hardware(專門設(shè)計的硬件),就是For dedicated Use case(專用案例),這種情況下,帶來的結(jié)果就是你的硬件設(shè)計跟你的使用場景是強(qiáng)綁定的?!?/p>
米良川認(rèn)為,此前多次機(jī)器人熱潮的停滯,一個普遍現(xiàn)象是每次功能迭代都需要機(jī)器人修改硬件,這很大程度制約了機(jī)器人行業(yè)的發(fā)展速度。
「通過小鵬機(jī)器人的努力,能否摸索出一條道路,把機(jī)器人產(chǎn)業(yè)的技術(shù)迭代從硬件模式變成軟件模式?」
而采用高度類人的路線,則有望可以實現(xiàn)米良川希望的「軟件模式」迭代,進(jìn)而后續(xù)對于硬件端的改進(jìn),也便有了更穩(wěn)定的方向。
在第二代IRON的開發(fā)過程中,小鵬的機(jī)器人團(tuán)隊首先為其確認(rèn)了腰和脊椎的硬件狀態(tài),另外在IRON的前腳掌也增加了自由度。
而在軟件層面,何小鵬向智駕網(wǎng)透露,在機(jī)器人與整車的生產(chǎn)過程中,盡管沒有具體數(shù)字統(tǒng)計有多少零部件共享,但是軟件和AI方面共享了很多,「感知」、「域控制器」大部分都是一樣的,「AI軟件」其中70%是一樣的。
在此基礎(chǔ)上,小鵬計劃為其引入全新AI系統(tǒng)「VLT」,該系統(tǒng)可接收視覺與語言輸入,直接輸出并生成任務(wù)系統(tǒng)。
這讓小鵬機(jī)器人與與自動駕駛一樣,迎來了自己的「涌現(xiàn)」時刻,也就是戲劇性的引發(fā)本次爭論的機(jī)器人「走貓步」。
「就在今年3月的一個晚上,IRON在倒退行走時突然變得非常擬人。這是我們生成式控制器的一個拐點,但我也說不清楚到底是哪次優(yōu)化帶來了變化,只能說當(dāng)數(shù)據(jù)和算力達(dá)到了一定程度,就實現(xiàn)了階躍?!?/p>
面對媒體,何小鵬絲毫沒有掩飾對機(jī)器人產(chǎn)業(yè)的樂觀判斷,他認(rèn)為汽車一年生產(chǎn)9000萬臺,在全球是10萬億美金的市場;而機(jī)器人是20萬億美金的市場,雖然可能需要10~20年的時間發(fā)展,但最終可能形成一個2億臺或者更大規(guī)模的人形機(jī)器人市場。
而在未來十年,機(jī)器人業(yè)務(wù)有望超過整車,在銷量規(guī)模上,將超過100萬臺。
寫在最后:
在一個高度內(nèi)卷的市場,雖然小鵬汽車的銷量剛剛有所突破,但小鵬汽車尚未實現(xiàn)盈利之時,為什么選擇同步推進(jìn)機(jī)器人、Robotaxi、飛行汽車等長周期的項目?
米良川回答說:「是相信?!?/p>
「之前也有人說小鵬很有眼光,飛行汽車、機(jī)器人都做對了,新能源也做對了,但實際上根據(jù)我的了解,更多是相信的力量,不是完全看到了這個機(jī)會,而是相信這個事情,且,愿意為之投入?!?/p>
因為相信所以敢于堅持,11月5日在小鵬科技日的中央舞臺,何小鵬宣布公司定位進(jìn)一步升級:從「未來出行探索者」進(jìn)化為「物理AI世界的出行探索者,面向全球的具身智能公司」。
一周之后,因為人工智能和機(jī)器人等新產(chǎn)品的發(fā)布超預(yù)期,港股小鵬市值暴漲15.11%,截至發(fā)稿,小鵬汽車總市值達(dá)2022.4億港元,超越了吉利汽車的1817.3億港元。
自11月以來,小鵬股票累計漲超20%。
站在一個新十年的起點,小鵬的勇氣與堅持正收獲來自資本市場的認(rèn)可與期待。
x
-
地平線與華為的智駕生態(tài)大戰(zhàn)靜悄悄地開始了 2026-01-05 15:44
-
“全維度新豪華”再掀變革,新款享界S9給出30萬級豪華車最優(yōu)解 2026-01-05 15:32
-
歐拉回歸:長城徹底不做純電品牌了 2025-12-26 12:47
-
嵐圖汽車2025年交付150169輛,同比增長87% 2026-01-02 14:37 -
10萬內(nèi)搭載激光雷達(dá),長安啟源全新Q05限時優(yōu)惠價6.6萬起售 2026-01-03 16:32 -
首月銷量破萬,埃安i60成為家庭剛需“最優(yōu)解” 2026-01-04 10:58


京公網(wǎng)安備 11010502038466號
關(guān)注官方微信