在昨日舉行的NVIDIA GTC 2025大會上,理想汽車自動駕駛技術研發(fā)負責人賈鵬正式發(fā)布了公司的下一代自動駕駛架構——MindVLA。這一架構融合了空間智能、語言智能和行為智能,旨在將汽車從單純的運輸工具轉變?yōu)槟軌蚶斫狻⑺伎疾⑦m應環(huán)境的智能體。 MindVLA是理想汽車自研的視覺-語言-行為融合模型(VLA),它成功整合了3D空間理解、邏輯推理與行為生成能力,為自動駕駛技術注入了新的活力。據(jù)理想汽車自動駕駛技術研發(fā)負責人賈鵬介紹,MindVLA不僅具備強大的感知和決策能力,還能夠像人類一樣理解并執(zhí)行自然語言指令,實現(xiàn)更加智能化的駕駛體驗。 在發(fā)布會上,賈鵬詳細闡述了MindVLA的技術亮點。該架構采用三維空間編碼器與語言模型融合設計,通過自研的混合專家(MoE)模型基座實現(xiàn)多任務處理。其3D高斯表征建模技術提升了自動駕駛場景建模效率,訓練速度較傳統(tǒng)方法加快7倍。同時,MindVLA還利用擴散模型(Diffusion)生成駕駛軌跡,結合常微分方程采樣器實現(xiàn)高質量軌跡的快速生成。 除了技術上的創(chuàng)新,MindVLA還為用戶帶來了前所未有的智能駕駛體驗。它“聽得懂”用戶的語音指令,能夠實時調整車輛路線和行為;它“看得見”非標準化交通標志和復雜環(huán)境,確保駕駛安全;它“找得到”目的地和車位,即使在沒有導航信息的情況下也能自主漫游尋找。 為了驗證MindVLA的實際效果,理想汽車還分享了實車自動駕駛實測視頻。視頻中,搭載MindVLA架構的理想汽車能夠準確理解并執(zhí)行駕駛員的語音指令,如尋找星巴克門店、調整行駛速度、自動泊車等。這些場景充分展示了MindVLA如何讓車輛像人類一樣理解物理世界,實現(xiàn)更加智能化的駕駛。 據(jù)悉,MindVLA已完成工程化適配,計劃于2026年搭載于量產(chǎn)車型中。這一消息無疑讓廣大消費者對未來智能駕駛充滿了期待。同時,理想汽車還表示,該架構未來或拓展至室內環(huán)境等非駕駛場景,探索物理與數(shù)字世界結合的通用人工智能路徑。 賈鵬在發(fā)布會上表示:“MindVLA是理想汽車在智能駕駛領域的重要突破,它將為汽車賦予類似人類的認知和適應能力,將其轉變?yōu)槟軌蛩伎嫉闹悄荏w。我們相信,MindVLA的發(fā)布將引領智能駕駛新紀元,為用戶帶來更加智能、便捷的出行體驗。” 核心特性 3D高斯建模:通過多尺度幾何表達與自監(jiān)督學習,實現(xiàn)復雜環(huán)境的實時解析,提升下游任務性能超30%。 MoE架構+稀疏注意力:采用混合專家架構與稀疏注意力技術,保持毫秒級推理速度的同時,模型規(guī)模增長。 人類式思考:引入“快思考”與“慢思考”雙模式,車輛能在常規(guī)場景中快速響應,在復雜博弈中深度分析。 擴散模型優(yōu)化:基于擴散模型與ODE采樣器,僅需2-3步即可生成高精度軌跡,優(yōu)化安全底線。 云端世界模型:自研“重建+生成”云端模型,通過3D高斯技術將場景重建速度提升7倍,支持大規(guī)模閉環(huán)強化學習。 跨領域泛化:模型在訓練中融入多模態(tài)數(shù)據(jù),展現(xiàn)出室內導航、物流調度等跨場景潛力。 行業(yè)影響 理想汽車CEO李想表示:“MindVLA將像iPhone 4重新定義手機一樣,顛覆自動駕駛。”這一技術的發(fā)布不僅對汽車行業(yè)產(chǎn)生深遠影響,還將為物流、安防等領域帶來新的發(fā)展機遇,打開萬億級AGI市場。 |