英偉達發布自動駕駛人工智慧「Alpamayo-R1」-憑藉推理能力加速L4級自動駕駛 英偉達發布自動駕駛人工智慧「Alpamayo-R1」-憑藉推理能力加速L4級自動駕駛

英偉達發布自動駕駛人工智慧「Alpamayo-R1」-憑藉推理能力加速L4級自動駕駛

英偉達發布自動駕駛人工智慧「Alpamayo-R1」-憑藉推理能力加速L4級自動駕駛

2025 年 12 月 1 日,在加州聖地牙哥舉行的 NeurIPS AI 大會上,Nvidia 宣布推出“Alpamayo-R1”,這是一種用於自動駕駛研究的開放推理視覺語言模型

該公司聲稱這是第一個專注於自動駕駛的視覺-語言-動作模型。該模型基於 Cosmos 模型家族中的 Cosmos-Reason 模型,該模型於 2025 年 1 月首次發布,其他模型於 8 月發布。

Alpamayo-R1 是實現 L4 級自動駕駛的關鍵技術,這意味著在特定區域和特定情況下可以實現完全自主駕駛。該模型已在 GitHub 和 Hugging Face 上發布。同時發布的還有《Cosmos Cookbook》,其中包含開發人員的逐步指南、推理資源和訓練後工作流程。

從: 文献リンク英偉達發布用於自動駕駛研究的全新開放式人工智慧模型和工具 | TechCrunch

【社論】

英偉達的Alpamayo-R1代表了自動駕駛技術的重要轉捩點。過去的自動駕駛人工智慧技術主要著重於基於模式識別的被動行為,而Alpamayo-R1則為自動駕駛引入了一種名為「推理」的全新能力。

視覺-語言-動作(VLA)模型是一種人工智慧模型,它將視覺識別、自然語言理解和動作生成整合到一個統一的框架中。雖然機器人領域的代表性例子包括GoogleDeepMind的RT-2和Figure AI的Helix,但Alpamayo-R1是世界上首個專為自動駕駛設計的VLA模型。傳統的機器人VLA模型著重於物件操作和人機協作,而Alpamayo-R1則針對車輛路徑規劃和決策進行了最佳化。

該模型的最大特點在於其整合了「因果鏈推理」。人類駕駛員在駕駛時會無意識地進行多步驟推理,例如“這輛車正在減速,所以前方可能有障礙物”,或者“路邊有行人,所以他們有可能突然跳到路上”。 Alpamayo-R1 的目標是賦予人工智慧這種類似人類的「常識」。

具體來說,該模型將複雜的交通場景逐步分解,在每一步中進行推理,評估可能的行駛軌跡,並利用上下文資料選擇最安全的路線。這在複雜且不可預測的情況下尤其有效,例如十字路口有施工人員、車道被堵塞或因積雪導致能見度低等情況。

英偉達表示,該車型對於實現L4級自動駕駛至關重要。 L4級自動駕駛指的是車輛在特定地理區域和特定條件下無需駕駛員幹預即可完全自主行駛。雖然Waymo和其他公司目前已在有限區域提供L4級無人駕駛計程車服務,但像Alpamayo-R1這樣的推理能力對於更廣泛的部署至關重要。

重要的是,該模型是開源的,可在 GitHub 和 Hugging Face 上免費用於非商業用途,研究人員可將其用於基準測試和建立實驗性自動駕駛應用程式。此外,Nvidia 還提供了一個名為 AlpaSim 的評估框架和一個名為 Cosmos Cookbook 的開發者指南,以加速整個研究社區的進展。

此外,包括 Voxel51、1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI 和 X-Humanoid 在內的多家公司已經採用了 Cosmos 模型系列,推動了其在工業領域的應用。

這種方法與英偉達執行長黃仁勳提出的「實體人工智慧是下一波浪潮」的策略完全契合。英偉達在資料中心的人工智慧GPU方面取得了巨大成功,但他認為“人工智慧與現實世界的互動”,例如機器人、自動駕駛汽車和工業人工智慧,才是公司下一個成長引擎。

然而,挑戰依然存在。推理模型計算量龐大,且需要針對即時控制進行最佳化。雖然開源加速了研究,但實際的商業部署需要英偉達的硬體(高效能GPU),而這正是該公司商業模式的核心。本質上,英偉達的策略是透過免費提供軟體來刺激對其硬體的需求。

Alpamayo-R1 的到來可能標誌著自動駕駛技術從「模式識別」向「推理和理解」演進的歷史性轉折點。

[術語]

視覺-語言-動作(VLA)模型<br>這是一個整合了視覺辨識、自然語言理解和動作生成的AI模型。它從影像和影片中獲取視覺訊息,理解語言指令,並根據這些指令輸出物理動作(機器人運動和車輛控制)。它是一種下一代AI技術,在機器人和自動駕駛領域備受關注。

宇宙理性
這是英偉達開發的推理模型,旨在做出回應前逐步完成決策過程。它是 Alpamayo-R1 的底層技術,為物理人工智慧的開發提供推理能力。

因果鏈推理<br>一種基於鍊式推理的因果關係方法。它將複雜情況分解為多個階段,並透過評估每個階段的因果關係來確定最佳行動方案。這模擬了人類駕駛時所使用的多階段思考過程。

4級自動駕駛(SAE 4級)
由國際汽車工程師協會 (SAE International) 定義的自動駕駛等級,是指車輛在特定地理區域和特定條件下無需駕駛員幹預即可完全自主行駛的階段。超出這些條件(例如惡劣天氣)行駛會受到限制。 L5 級是完全自動駕駛,沒有任何限制;而 L4 級則指在有限條件下的自動駕駛。

神經植入物
神經資訊處理系統國際會議(NIPS)是全球規模最大的機器學習和人工智慧國際會議之一。該會議每年12月舉行,展示最新的人工智慧研究成果。

強化學習
一種機器學習技術,其中人工智慧代理透過反覆試錯從與環境的互動中學習。它優化行動以最大化獎勵。研究表明,該技術對訓練後的 Alpamayo-R1 模型有效。

物理人工智慧
能夠與現實世界進行實體互動的人工智慧系統統稱為「實體互動人工智慧」。它指的是物理空間中運作並做出決策的人工智慧,例如機器人、自動駕駛汽車和工業機械。這一概念與僅在數位空間中運行的傳統人工智慧形成對比。

GitHub
它是一款廣泛用於開源專案程式碼共享和版本控制的軟體開發平台,也是開發者社群的核心。

擁抱臉
一個用於共享機器學習模型和資料集的平台。它提供了一個生態系統,人工智慧研究人員和開發人員可以在此發布、使用模型並進行協作。

[參考連結]

NVIDIA 部落格 – 在 NeurIPS 大會上,NVIDIA 推動開放模式開發(外部連結)
關於 Alpamayo-R1 在 NeurIPS 上的演示的官方部落格文章。提供了推理 VLA 模型的技術細節以及 Cosmos Cookbook 的相關資訊。

NVIDIA 研究 – Alpamayo-R1 研究出版品(外部)
Alpamayo-R1 研究論文頁。包含技術細節、評估結果和車輛測試數據。

NVIDIA Labs GitHub (外部)
這是英偉達開源專案和人工智慧模型的GitHub頁面。 Alpamayo-R1和Cosmos Cookbook可供下載。

NVIDIA 談 Hugging Face (外部)
HuggingFace 的 NVIDIA 官方頁面,提供 Alpamayo-R1 模型和相關資料集。

SAE International – J3016 駕駛自動化等級(外部)
一項定義了六個自動駕駛等級的國際標準,提供了從 0 級到 5 級的詳細定義。

NVIDIA 新聞中心 – Cosmos 世界基礎模型(外部連結)
Cosmos系列模型的官方發布頁面。詳細介紹這款將於2025年1月在CES發布的實體AI開發平台。

[參考文章]

在 NeurIPS 大會上,NVIDIA 推進了數位和實體人工智慧的開放模型開發(外部連結)
本文包含 Alpamayo-R1 的技術細節、它與 Cosmos-Reason 模型的關係、透過強化學習來提高性能、AlpaSim 框架以及使用該框架的公司的資訊。

Alpamayo-R1:橋接推理和動作預測以實現可泛化的自動駕駛(外部)
本文詳細介紹了因果鏈推理與軌跡規劃的集成,並進行了全面評估。結果表明,該方法在推理、軌跡生成和安全性等多個方面均展現出最先進的性能。

NVIDIA 公開 Cosmos World Foundation 模式(外部連結)
2025 年 1 月發布的 Cosmos 模型系列的詳細信息,包含 9 千萬億個代幣和 2000 萬小時的真實世界數據訓練。

英偉達自動駕駛人工智慧獲得類人推理能力(外部訊息)
我們分析了將類似人類的常識判斷引入自動駕駛人工智慧的意義,以及從模式識別到上下文理解的演變。

視覺-語言-動作模型 – 維基百科(外部連結)
對 VLA 模型進行一般性定義,介紹其架構,並解釋主要模型,例如 Google DeepMind 的 RT-2 和史丹佛大學的 OpenVLA。

汽車自動化程度的 SAE 等級簡述(外部連結)
本文詳細解釋了SAE國際自動駕駛六級分類標準,並介紹了L4級自動駕駛的定義以及Waymo、Cruise等公司的案例。

NVIDIA發布Cosmos模型,旨在擴展實體人工智慧(外部)
黃仁勳在 CES 2025 上的演講,實體人工智慧市場的戰略重要性,以及透過 Omniverse 整合加速工業人工智慧的前景。

[編者註]

自動駕駛汽車不僅能“看”,還能“思考”——Alpamayo-R1 所展現的發展方向可能會顯著改變我們未來的交通出行方式。人工智慧已經開始做出一些人類駕駛員無意識的推斷,例如「那輛車正在減速,所以前面可能有障礙物」。您認為自動駕駛汽車在多大程度上能夠做出判斷?您認為機器擁有類似人類的「常識」會帶來哪些可能性和挑戰?何不加入我們,共同見證科技的演進,並思考未來的出行體驗? innovaTopia 編輯團隊將持續關注這一領域的發展趨勢。