
AI 視訊生成新創公司 Runway 於 12 月 1 日發布了其新的視訊模型Gen 4.5 。該模型在獨立 AI 基準測試公司 Artificial Analysis 維護的 Video Arena 排行榜上名列第一,擊敗了 Google 的 Veo 3(第二名)和 OpenAI 的 Sora 2 Pro(第七名)。
第四代半機器人能夠根據文字提示生成高分辨率視頻,並且在理解物理原理、人體運動、攝影機技巧以及因果關係方面表現出色。執行長克里斯托瓦爾·瓦倫蘇埃拉表示,這支百人團隊擊敗了一家市值數萬億美元的公司。
Runway成立於2018年,根據PitchBook估值,公司估值達35.5億美元。其投資者包括General Atlantic、Baillie Gifford、Nvidia和Salesforce Ventures。 Gen 4.5將於本週末前面向所有客戶推出,用戶可透過公司平台、API和合作夥伴管道取得。
從:
Runway推出全新AI視訊模型,在關鍵基準測試中擊敗Google和OpenAI
【社論】
一支由 100 人組成的小團隊擊敗像谷歌這樣市值數萬億美元的巨頭,這不僅是一項技術成就,更是一個具有像徵意義的事件,標誌著人工智慧發展範式的轉變。
Runway 的 Gen 4.5 在影片領域排名第一,這一排名是由獨立基準測試公司 Artificial Analysis 進行的一項盲測評估的。在測試中,評測人員在不知道公司名稱的情況下比較兩個影片並投票選出他們最喜歡的影片。 Gen 4.5 的Elo 得分為 1247 分,超過了 Google 的 Veo 3(1226 分)和 OpenAI 的 Sora 2 Pro(1206 分)。
這些結果揭示了人工智慧視訊生成領域的新現實:規模和資金並不一定能保證優勢。正如 Runway 執行長 Cristóbal Valenzuela 所說,“只要極其專注和勤奮,就能達到技術前沿”,我們正在進入一個專業研發和高效實驗流程將超越龐大資源的時代。
第四代(Gen 4.5)的技術優勢在於其對物理定律的精準模擬。它比以往的型號更忠實地再現了現實世界的物理現象,例如流體流動、物體重量和動量守恆。此外,它還擁有卓越的反應速度和運動質量,能夠精確生成動畫,準確反映使用者想要執行的動作。
該模型運行於NVIDIA Hopper 和 Blackwell 架構之上,能夠產生 720p 解析度、24fps 的影片。 Runway 將其定位為通用世界模型 (GWM),並致力於將其開發成一個能夠理解和再現物理世界行為的系統,而不僅僅是一個視訊生成工具。
然而,正如 Runway 自己公開承認的那樣,Gen 4.5 也存在局限性。例如,因果推論(例如,門在門把手被按下之前就打開了)、物體持久性(物體意外地消失和出現)以及成功偏差(本應失敗的動作往往成功)等問題依然存在。這些都是當前 AI 視訊生成技術普遍面臨的問題,也顯示距離實現完整的「世界模型」還有很長的路要走。
有趣的是,Runway、Google 和 OpenAI 各自瞄準不同的市場。 Runway專注於短影片(幾秒鐘) ,主要針對 Instagram 和 TikTok 等社群媒體平台創作內容。 Google 則瞄準幾分鐘的長視頻,而 OpenAI 的目標則介於兩者之間。這顯示人工智慧視訊生成市場呈現出分散化和成熟的趨勢,而非競爭激烈。
Runway 的成功也是人工智慧研究民主化這一更大趨勢的一部分。該公司成立於 2018 年,七年後估值達到 35.5 億美元,並入選 CNBC 2025 年「顛覆者 50 強」榜單。儘管獲得了 General Atlantic、Baillie Gifford、NVIDIA 和 Salesforce Ventures 等投資者的支持,Runway 仍然保持著獨立的研發結構,據報道,該公司今年稍早拒絕了 Meta 的收購提議。
這表明,人工智慧的未來不會由少數幾家巨型公司主導,擁有專業技術和清晰願景的新創公司可能會發揮重要作用。第四代半人工智慧或許是開啟這未來的關鍵之一。
[術語]
視訊競技場
這是一個由獨立人工智慧評估公司 Artificial Analysis 營運的文字轉視訊模型基準測試平台。該平台採用盲測形式,評估人員在不知道公司名稱的情況下比較兩個視頻,並投票選出他們最喜歡的模型。投票結果將用於使用 Elo 評分系統對每個模型進行排名。
Elo 評分<br>最初用於對國際象棋棋手進行排名的相對評價系統。在人工智慧領域,它是一個數值,透過模型間的直接比較(A/B 測試)計算得出,分數會根據勝負次數而波動。 Gen 4.5 的得分為 1247 分。
通用世界模型(GWM)
這是一種人工智慧模型概念,旨在理解和重現物理世界的規律和因果關係,而不僅僅是產生影片。它是一種新一代視訊生成技術,能夠精確模擬物體的重量和動量以及液體的流動等物理現象。
NVIDIA Hopper / Blackwell
這是NVIDIA開發的最新一代GPU架構。 Hopper將於2022年發布,Blackwell將於2024年發布。它針對AI推理和訓練進行了最佳化,而Gen 4.5正是為在這些GPU上運作而設計的。
文字轉視頻
這項人工智慧技術可以根據文字提示自動產生影片。例如,如果用戶輸入“夕陽下奔跑的狗”,人工智慧就會根據該內容產生一段影片。
[參考連結]
Runway 官方網站(外部連結)
AI影片和影像生成平台。提供包括第四代.5代在內的最新模型、API服務以及各種AI影片編輯工具。
Runway Gen-4.5 官方研究頁面(外部連結)
本文提供了 Gen 4.5 的技術細節、演示影片和限制。它解釋了物理模擬精度的提高和學習方法的創新。
人工智慧分析視頻競技場(外部)
由一家獨立的 AI 基準測試公司營運的文字轉視訊模型評估平台,該平台使用盲投票系統對模型進行排名。
CNBC Disruptor 50 (外部)
Runway 入選了 CNBC 2025 年度「顛覆產業的 50 家新創公司」榜單。
跑道(維基百科) (外部連結)
本書全面介紹了 Runway 的公司歷史、主要產品、融資歷史以及在電影和音樂產業的應用案例。
[參考文章]
新推出的 Runway Gen-4.5 AI 視訊模型超越了 Google Veo 3 和 OpenAI Sora 2 (外部)
一篇全面的技術文章,涵蓋了它在 NVIDIA Blackwell 架構上的運作方式、物理模擬的技術細節以及 Meta 拒絕的收購提議。
Runway 的 Gen-4.5 在文字轉影片基準測試中超越了 Google 和 OpenAI (外部)
一篇平衡的分析文章,坦率地指出了創世記 4.5 的局限性(因果推論、對象持久性等方面的問題)。
Runway 發布 Gen-4.5 視訊模型(外部)
文章中包含 Gartner 分析師的評論,並詳細分析了 Runway、Google 和 OpenAI 之間的策略差異(短片與長影片)。
Runway Gen-4.5 版本介紹(Runway 官方) (外部)
Runway官方技術公告。這是公開揭露模型學習方法、物理模擬能力和已知限制的主要資訊來源。
[編者註]
一支百人團隊擊敗了一家市值數萬億美元的公司。這一事實讓我們不禁質疑,在人工智慧時代,「規模」究竟意味著什麼。
我們或許正在步入一個新時代,在這個時代,專注度和研究質量,而非巨額資金或龐大的人員規模,將引領未來。 Runway 的 Gen 4.5 計畫表明,技術民主化的概念可能正在成為現實。
類似的變革很可能正在您感興趣的領域發生。未來,擁有專業技術的企業將展開競爭,而不是由大型企業主導產業。我希望您能與我們一起關注這場變革的前沿動態。