近日,銀河通用聯合北京智源人工智能研究院(BAAI)及北京大學和香港大學研究人員,鄭重發布首個全面泛化的端到端具身抓取基礎大模型 GraspVLA。 據介紹,GraspVLA 的訓練包含預訓練和后訓練兩部分。其中預訓練完全基于合成大數據,訓練數據達到了有史以來最大的數據體量——十億幀「視覺-語言-動作」對,掌握泛化閉環抓取能力、達成基礎模型;預訓練后,模型可直接 Sim2Real 在未見過的、千變萬化的真實場景和物體上零樣本測試,全球首次全面展現了七大卓越的泛化能力,滿足大多數產品的需求;而針對特別需求,后訓練僅需小樣本學習即可遷移基礎能力到特定場景,維持高泛化性的同時形成符合產品需求的專業技能。 GraspVLA 展示了無需大規模真實數據、僅通過合成數據達到基礎模型的預訓練過程,和進一步通過小樣本微調使基礎“通才”快速成長為指定場景“專家”的能力,定義了 VLA 發展的新范式。這一方式打破了世界范圍內具身通用機器人當前發展的兩大瓶頸 。 真實數據采集不僅非常昂貴,且很難覆蓋所有可能的實際應用場景,導致數據量不夠無法訓練出基礎模型、采集成本過大以致無法盈利。即便不計成本地采集,由于人形機器人硬件遠未收斂,隨著硬件更新,原有的數據效力將大打折扣,造成大規模的浪費。 數據的缺乏直接限制了機器人的泛化性和通用性。大部分機器人只能在特定的環境、特定的物體和特定的條件下完成專用任務,人形機器人無法實現規模商業化。 以 GraspVLA 為代表的銀河通用技術路線具有低成本、大數據、高泛化的特點,突破了具身智能的發展瓶頸,將在2025年引領端到端具身大模型走向規模商業化。 來源: 網易科技報道 |