21世紀經濟報道見習記者 何煦陽 報道
“AI 一天,人間一年。” 一位 AI 公司聯合創始人曾這樣形容大模型的發展速度。
2023年3月,OpenAI發布GPT4,不久后,Sora、o1新模型誕生,AI大爆發,這些重要事件啟發了諸多新勢力車企。小鵬自動駕駛副總裁李力耘告訴《21汽車·一見Auto》,2023年年初,小鵬開始探索如何將端到端運用到自動駕駛領域,去年下半年,小鵬又開始向云端大模型邁進。
近日,在AI大模型技術閉門分享會上,李力耘說,小鵬正在研發 720 億參數的超大規模自動駕駛大模型,即 “小鵬世界基座模型”。
所謂小鵬世界基座模型,是一個以LLM(大語言模型)為骨干網絡,使用海量多模態駕駛數據訓練的多模態大模型,具備視覺理解、鏈式推理(Cot)和動作生成能力。小鵬希望世界基座大模型能夠真正理解、認知,甚至改造物理世界。
物理AI也是理想的自動駕駛方案瞄準的最新方向。今年3月,理想自動駕駛技術研發負責人賈鵬在英偉達 2025 春季 GTC 大會上介紹,理想在車端部署了參數為 22 億的 MindVLA 大模型(Vision-Language-Action Model,視覺-語言-動作模型)。
在理想看來,之所以用VLA,是因為自動駕駛與機器人一樣,所解決的都是AI如何與物理世界交互的問題。
但小鵬與理想最大的不同,是小鵬不在車端直接落地模型,而是先在云端訓練出一個超大模型基座,然后取其精華,將“蒸餾”出的小模型部署到車端。這種云端蒸餾的技術方案已在今年爆火的DeepSeek論文中得到驗證,小鵬試圖通過這種方式,突破車端因AI算力稀少帶來的模型上限。
這套從云到端的生產流程,小鵬稱之為“云端模型工廠”。依托強大的 AI 算力基礎設施和數據處理機制,目前整個“云端模型工廠”從云到端的全鏈路迭代周期可達平均 5 天一次。
一位新勢力業內人士向《21汽車·一見Auto》評價,在布局AI大模型上,小鵬的野心更大,理想更偏實用主義。
“除了汽車外,小鵬在AI上落地了飛行汽車、機器人。后兩項業務是理想和蔚來尚未踏入的領域,他們目前聚焦AI汽車。所以小鵬需要更大、效率更高的基座模型?!鄙鲜鋈耸靠偨Y。
小鵬和理想廝殺正酣之際,同屬三兄弟的蔚來卻在一旁顯得有些落寞。
蔚來曾是國內首個實現高速NOA全量推送的車企,但隨著行業轉向“無圖”和端到端大模型,蔚來卻稍顯遲緩。
去年7月27日的蔚來創新科技日,蔚來智能駕駛副總裁任少卿發布了蔚來世界模型NWM(NIO World Model)。NWM優化了端到端架構,能全量理解數據,重建物理世界,具備想象力、長時序推演和決策能力。
但受制于蔚來自動駕駛部門組織調整、多種路線的探索,后又因工信部新規,目前,世界模型仍未開啟大規模上車。
智駕技術迭代速度日新月異。從高精地圖、無圖到去年形成“端到端”的共識,再到今年,各家車企已經試圖超越端到端范式,尋找更優的技術路徑。世界基座模型、VLA、世界模型......蔚小理在智能駕駛上的技術路徑不同,但終局或許相通。
根據權威研究機構 EPOCH AI 的調查,語言大模型的性能正逐漸隨參數規模加大出現邊際效益遞減,2028 年將訓練完互聯網的所有可用文本數量。因此,OpenAI、谷歌與 Meta 等科技巨頭正在邁向 AGI 的下一階段:多模態大模型。
未來,所有正在鉆研智能駕駛的車企,將與全世界的其他AI企業一起,共同參與這場浩大的AI大模型競賽。
小鵬:為了“大力出奇跡”,我做了三件事
在大語言模型領域,規模法則(Scaling Law)已被充分驗證,即“規模越大、能力越大”,ChatGPT的成功就是基于“大力出奇跡”的暴力美學。
但過往的自動駕駛并未真正用到“大模型”。李力耘介紹,過去一年,小鵬智駕研發團隊先后開發了2B(Billion)、7B尺寸的基座模型。放眼整個汽車行業,“基于車端芯片,模型尺寸一般在1億~5億之間,主流的 VLA 的參數規模也不過20億左右”,李力耘說。
這是因為自動駕駛基座模型“復雜得多”,它的訓練數據遠不止單模態的文本數據,還包括攝像頭信息、導航信息等關于物理世界的多模態數據。本質上,它要求模型對物理世界形成認知和理解。
李力耘稱,小鵬目前已經著手推進72B超大規模參數世界基座模型的研發,后者是主流車端模型的35倍以上。
在開發超大模型之前,李力耘團隊做的第一件事是:驗證參數規模逐步擴大到百億級別之后,規模法則的可行性。
上圖左側圖標題為《Long ADE(Long-term Average Displacement Error,長期平均偏差) vs 模型規模》,縱軸為 Long ADE,橫軸為模型規模。
觀察可發現,假如用于訓練的視頻量不變,無論是白線(4M Clips,400萬段視頻)還是金線(14M Clips,1400萬段視頻),都在隨著模型參數的上升而逐漸走低,即誤差持續下降;如果將兩條曲線相對比,金線的下降幅度明顯比白線更大,說明用于訓練的視頻量越大,誤差下降幅度越大。
右側圖標題為《 Long ADE vs 訓練數據集大小》,很明顯,訓練的數據量越大,誤差下降得越快。
可行性驗證完畢后,為了訓練這一超大模型,小鵬做的第一件事是搭建了一個“云端模型工廠”。
“云端模型工廠”的“原料”是數據。小鵬發現,大量多模態數據的匯集、更高的參數,使云端世界基座模型擁有了鏈式推理能力(CoT)。
即世界基座模型能在充分理解物理世界的基礎上,像人類一樣進行復雜的常識推理,并將推理結果轉化為行動:調整方向盤、剎車等,實現和物理世界的交互,最終實現多模態大模型控制車輛的效果。
為了補全長尾場景,小鵬的方法是研發強化學習技術。原本的“規則時代遺產”,如今成為了小鵬的第二個殺手锏。
解決極端場景能力,比如撞車、事故等,是自動駕駛里非常重要的一部分。由于極端場景數據很少,傳統的解決方式是讓車端模型不斷通過模仿學習來學,但由于沒有辦法得到人駕時成功避免事故的軌跡數據,車端模型很難習得這個能力。
另外,由于車端模型參數小,本身能力上限較低,“就像一個比較差的學生,再怎么去做一些難題也不太可能提高分數。讓一個小模型做強化學習,不見得有能力去解決這些極端場景?!崩盍υ鸥嬖V《21汽車·一見Auto》。
但如果基座模型足夠強大,就能被強化學習不斷激發出能力上限,提高模型的泛化性和對未知場景的理解和推理能力,找到最可能降低風險的路徑。“這是大家最新收斂的一個共識?!毙※i世界基座模型負責人的劉博士說。
強化學習具體該怎么做?小鵬分享了他們開發強化學習系統的三個方面:
一、設立獎勵函數(Reward Function)。小鵬用最簡單的規則來作為獎勵函數,例如合規、舒適、安全等等。這些小鵬過往在智駕研發的規則時代中積累的大量經驗,成為了今天基座模型時代從0到1的基礎。
二、設立獎勵模型(Reward Model)。獎勵模型會提供更連續、泛化、更多維的獎勵信息給到強化學習,簡單來說就是告訴智駕“什么是好的”,并以此讓智駕想辦法達成這些表現。這部分小鵬更重視智駕接管和市場的反饋數據,讓模型按照市場建議來改進“開車習慣”,提高模型的泛化能力。
三、設立世界模型(World Model)。小鵬構建的世界模型是一種實時建模和反饋系統,能夠基于動作信號模擬出真實環境狀態,渲染場景,并生成場景內其他智能體的響應,從而構建一個閉環的反饋網絡,幫助基座模型不斷進化,突破過去“模仿學習”的天花板。
從“原料”到“上車”,靠的是“云端蒸餾”,這是小鵬將超大模型下放到車端的最后一招。“云端蒸餾”是模型壓縮的一種方法,指利用云計算資源,讓一個大模型(教師模型)教一個小模型(學生模型),這樣小模型能模仿大模型的性能,但體積更小,計算量更少。這一技術早已在今年爆火的DeepSeek論文中得到驗證。
劉博士將訓練基座模型,比作訓練出了一個“青年教師”,通過強化學習把他訓練成一個“資深教授”,最后通過蒸餾,讓老教授的能力最大可能地保留在車端,讓車端小模型吸收海量數據的精髓。
云端基座大模型可以突破車端芯片算力的“一畝三分地”,大幅提升“AI汽車智能上限”。而云端蒸餾的好處在于,能夠在云端模型基礎上高效生產“小身材、大智商”的端側模型,甚至能為不同需求的汽車定制不同的“大腦”,讓“千人千面”的模型研發成為可能。
不久前,小鵬汽車已經實現在后裝算力的車端成功實現基模控車。雖然這只是早期測試,但基座模型已經展現出令人驚喜的駕車技能。
為了訓練如此龐大的模型和數據、提升算力速度,小鵬汽車從2024年開始搭建AI基礎設施,當前已建立起萬卡規模的智能算力集群,算力儲備達到10EFLOPS,利用率常年高達90%以上,高峰時期的運行效率甚至達到98%。
為了解決數據訪問的效率問題,小鵬汽車又自主開發了底層的數據基礎設施,使數據上傳規模提升 22 倍、訓練中的數據帶寬提升 15 倍。目前,小鵬汽車用于訓練的視頻數據量已達到 2000 萬 clips,將在今年增加到 2 億 clips,整個“云端模型工廠”的迭代周期達到平均 5 天一次。
相較理想和蔚來,目前小鵬在AI領域的布局更全面,包括AI汽車、AI機器人、飛行汽車,這也是小鵬更需要世界基座模型的原因。
何小鵬在發布會上宣布,目前小鵬匯天陸地航母在國內收到了將近4000臺訂單,將于2026年量產;小鵬人形機器人IRON已經小規模進入到了工廠實訓,目標在2026年進入工業化量產;最后,小鵬將在 2025 年底,在中國內地率先實現 L3 級智能駕駛落地。
理想:從二維到三維,從VLM到VLA
在技術分享會上,小鵬專門提到自己的模型參數 35 倍于主流 VLA 模型,意在與理想今年3月部署的 MindVLA 模型一爭。
在智駕領域,理想是一匹耀眼的黑馬。去年端到端成為技術浪潮,逼迫車企從分模塊的規則思維轉換到端到端架構,那些原本在智駕上領先的車企,要承受不小的沉沒成本;反倒是一些落后者,有了彎道超車的機會。
理想就是一個典型例子,去年不僅首先實現“車位到車位”的全量推送,其獨特的“端到端(快系統)+VLM(慢系統)”還被不少車企所模仿。今年3月,理想又發布新智駕基座模型——MindVLA,大有引領智駕潮流之勢。
VLM像一個教練通過語言方式指導駕駛員開車,無法直接干預。而VLA則是“教練直接開車”,因此VLA模型在推理方面的能力要遠高于VLM+端到端組成的雙系統。
雖然小鵬和理想的智駕技術在大方向上不同,但需要面對很多共同問題,具體怎么解決,他們則采取了不同的技術路線:
其一,理想和小鵬都意識到,過往訓練端到端大模型所使用的數據都是海量二維的互聯網圖文,模型在3D空間理解上是不足的。為此,他們都需要對基座模型進行重新訓練。
·小鵬給模型灌入了海量攝像頭信息、導航信息等關于物理世界的多模態數據,還用上了“云端模型工廠”;
·理想則選擇了另一種技術——3D高斯潑濺技術,即用很多個“高斯點”來拼出一個 3D 物體,每個點都像一個小水滴,含有自己的位置、顏色和大小等信息。將這些高斯點組合在一起,就能形成一個立體的圖像,使自動駕駛系統能夠高效感知和理解周圍物理環境。
其二,他們都意識到自動駕駛芯片(如 Orin-X 和Thor-U) 的內存帶寬和算力是有限的,他們必須找到提升模型參數量和能力,同時還能讓其實現高效推理的“鑰匙”。
·小鵬把Deep seek 的“云端蒸餾”技術用到了車上,即先訓練一個超大基座模型,再蒸餾出一個已吸收海量數據精髓的小模型,最后部署在車上,在有限的車端芯片上最大化發揮模型能力。
·理想則著重實現模型的稀疏化,采用了 MoE (Mixture of Experts)模型架構,并引入稀疏注意力(Sparse Attention)。
MOE架構由專家網絡、門控網絡和組合器組成。當模型參數超過千億級別時,傳統方法會讓所有神經元參與每個計算,太浪費資源;但MoE架構會讓門控網絡承擔總調度員的角色,根據所要處理的任務激活不同的專家,最后再由組合器整合結果,實現“用20%的計算資源完成80%的任務精度”。
稀疏注意力則是讓AI只計算關鍵區域的注意力權重,好比人在開車時緊盯前方車輛,只用余光掃視后視鏡,而非事無巨細地觀察所有景物。
用這兩種方式,理想能保證模型在規模增長的同時,維持較高的端側推理效率,使自動駕駛在資源受限的車端環境中依然能夠實現高效推理。
其三,小鵬和理想都必須解決“自動駕駛大模型如何應對極端場景”這個繞不開的問題。
·小鵬選擇訓練超大基座模型,然后用強化學習的獎勵模型不斷激發模型的潛能,提高模型的泛化能力。
·理想團隊則選擇構建基于人類偏好的數據集,引入RLHF(基于人類反饋的強化學習)進行模型微調,使MindVLA對齊人類駕駛行為,提升其安全底線。
李想在接受AI Talk時強調,理想是一家人工智能企業,講“理想汽車”是為了方便跟外界溝通和宣傳,但從來沒把“汽車”加到logo上。理想同時在做理想同學和智能駕駛兩款人工智能產品,而在做的過程中,他們早就發現這兩個領域有一天一定會連在一起——那就是基座模型變成 VLA 的時刻。
如今,李想的宏圖已在一步步實現。MindVLA 計劃在今年7月和首款純電SUV車型理想i8同時發布,在2026年搭載于量產車型。
蔚來:預埋硬件、注重安全
蔚來自從去年7月公布 NWM 智駕方案后,在技術架構上就沒有新的消息。
去年蔚來科技創新日上,任少卿說NWM就像“人的大腦”。在引入NWM后的端到端架構模型有三個優點:
·全量理解信息,空間認知能力更強;
·能夠預測接下來的情景,在0.1秒內推演出216種可能發生的軌跡,然后尋找最佳決策;
·仿真世界,NSim(NIO Simulation)可以將NWM推演的每一種軌跡與對應的仿真結果做對比,給到更多數據給到 NWM 訓練,讓輸出的智駕軌跡和體驗更安全更合理,更高效。
不過,目前小鵬和理想都在自己的智駕方案中使用世界模型進行仿真測試了,蔚來的智駕方案是不是也應該與時俱進了?
另外,NWM作為多元自回歸生成模型,需要千萬級 Clips 以上的真實數據訓練。如何滿足這么龐大的數據需求?除了剛才提到的生成式仿真測試之外,蔚來還祭出了“群體智能”這一法寶:
蔚來目前有20多萬臺搭載 NT2.0 平臺的車型,每臺車配備四顆 Orin-X 中,有一顆專門留給群體智能訓練。這顆 Orin-X能夠篩選掉 99%無用數據并經過復雜自動化流程處理后回傳云端,使車輛不光在智駕狀態下,在非智駕狀態下也能獲取到有效數據:
20多萬臺車即是20多萬個“移動數據節點”,每月能夠提供 500 萬+接管數據,共分析 4785 萬接管案例,捕捉的高價值 Clips 超過 1000 萬。
更為重要的是,蔚來依靠群體智能,顯著提升了找到極端場景的能力,“現在我們已經有超過一千萬公里的高價值數據,保證我們在領航的狀態,在主動安全的狀態做到更加安全”,任少卿表示。
小米事故后,監管部門給狂奔的智駕競賽踩了一腳急剎車,那些急著秀參數、拼速度的玩家,需要補交一波“安全學費”。
雖然在模型架構和量產推送上比小鵬、理想慢,但一位蔚來智駕智駕人士告訴《21汽車·一見Auto》,李斌每周都會查看用戶所上報的重要事故,他對智能駕駛團隊的期待很明確,“解放精力、減少事故”。
走得慢的蔚來,一直很重視安全:去年7月為用戶上線端到端架構的AEB功能,覆蓋場景提高 6.7 倍,推送后平均每月幫助用戶避免 7 萬次事故;今年1月,蔚來通過 Banyan 3.1.0 系統推送AES功能,是全球首個將端到端技術應用于主動安全的車企。
小米的智駕事故是一次提醒,倒逼行業從比拼“誰跑得快”變成“誰跑得穩”,目前走得慢卻穩的蔚來,未必不會在之后的智駕競賽中重新超車。
蔚小理在AI大模型上的角逐,反映了他們各自做事的底色——“技術控”的小鵬最具野心,布局超大模型、一年敢投入45億元;花錢謹慎的理想,仍聚焦于車端的實用體驗;“車圈海底撈”蔚來,提前為用戶預埋了安全硬件。
電動化時代,蔚小理最大的對手是特斯拉。但面對AI革命,更多科技巨頭齊上陣,他們需要跑得最快些。