TurboDiffusion發布,可將AI視訊生成速度提升高達200倍-由清華大學和聖舒科技共同開發 TurboDiffusion發布,可將AI視訊生成速度提升高達200倍-由清華大學和聖舒科技共同開發

TurboDiffusion發布,可將AI視訊生成速度提升高達200倍-由清華大學和聖舒科技共同開發

TurboDiffusion發布,可將AI視訊生成速度提升高達200倍-由清華大學和聖舒科技共同開發

2025年12月23日,聖書科技與清華大學TSAIL實驗室宣布開源發表TurboDiffusion,這是一個全新的加速框架,可將AI影片產生速度提升100到200倍。該框架能夠實現即時視訊生成,且視覺品質損失極小。

TurboDiffusion 融合了四項技術:SageAttention 用於低位元注意力加速,Sparse-LinearAttention 可實現 17-20 倍的加速,rCM 蒸餾方法可分 3-4 步生成視頻,以及使用 8 位元量化的線性層加速。對於開源視訊生成模型 1.3B/14B-T2V,在單塊 RTX 5090 GPU 上實現了 100 倍到 200 倍的端對端加速。

聖書科技的視訊模型Vidu將產生一段高品質1080p、8秒影片所需的時間從大約900秒縮短到大約8秒。 SageAttention已被整合到NVIDIA的TensorRT、華為Ascend和Moore Threads S6000中,並被騰訊混源、字節跳動豆寶、阿里巴巴虎、谷歌Veo3、商湯科技等公司採用。

從: 文献リンク聖書科技與清華大學聯合發布TurboDiffusion,開啟即時AI視訊生成時代

 - innovaTopia - (イノベトピア)
引自盛舒科技公關通訊社

【社論】

TurboDiffusion的發布標誌著人工智慧視訊生成技術發展史上的關鍵轉折點。此前,人們對人工智慧視訊生成的關注點一直集中在它能否實現,但這項技術突破將其推向了新的階段:它能否以實用的速度生成高品質視訊?

這項技術之所以備受關注,最大的原因在於它在不犧牲畫質的前提下,實現了100到200倍的顯著速度提升。雖然傳統的擴散模型也能產生高品質視頻,但其極高的計算成本嚴重阻礙了其實際應用。 TurboDiffusion透過系統地融合四項獨立技術,有效解決了這個難題。

尤其值得一提的是SageAttention,一項低位元注意力加速技術。這項技術由清華大學團隊開發,並已整合到NVIDIA的TensorRT中,成為業界標準。注意力計算是擴散模型的核心部分,能夠利用8位元來量化加速這個過程意義重大。與FlashAttention2相比,SageAttention的計算速度提升約2.1倍,同時幾乎不損失精確度,這些特性是其實際應用的關鍵所在。

另一項關鍵技術是名為 rCM 的蒸餾方法。傳統的擴散模型需要數十到數百個步驟,而 rCM 僅需 3-4 個步驟即可產生高品質視訊。這是 NVIDIA 開發的一種尖端蒸餾方法,它結合了分數蒸餾技術,克服了傳統方法(例如 sCM 和 DMD2)中品質和多樣性之間的權衡問題。

其實際影響不容忽視。透過將製作一段 8 秒 1080p 影片所需的時間從大約 900 秒縮短到大約 8 秒,創作者將能夠近乎即時地獲得作品回饋。這不僅節省了時間,更代表創作流程本身的革命性改變。以往只能在靜態影像或短影片中透過反覆試驗來完善作品的工作流程,如今也能應用於更長的影片製作。

這項技術在企業應用方面也具有巨大潛力。在廣告業,需要快速產生和比較多個版本;在電影和動畫製作中,它能顯著提高預先視覺化的效率。運算成本的降低意味著以前需要大型GPU叢集才能完成的處理,現在只需一塊RTX 5090顯示卡即可完成,這也是此技術普及化的另一個重要因素。

同時,我們需要認真探討這項技術對社會的影響。降低影片製作門檻可能會增加惡意利用的風險,例如深度偽造技術。此外,人們也擔心這項技術會取代專業創作者的工作。然而,阻止技術進步本身並不現實;真正需要的是製定適當的法規和指導方針,並促進其健康發展,使其成為人類創造力的補充工具。

這項技術的開源將對其未來發展產生重大影響。發佈在 GitHub 上的程式碼和模型將為世界各地的研究人員和開發者提供基礎,以進一步改進這項技術。它已經吸引了 Meta 和 OpenAI 等機構的研究人員以及 vLLM 等主要專案團隊的關注,我們可以期待該生態系統進一步發展。

[術語]

擴散模型
這是一種能夠產生影像和影片的人工智慧技術。它透過學習如何逐步從噪音中恢復資料來產生高品質的內容。儘管它面臨著計算密集型和耗時的挑戰,但其高品質的生成效果已引起廣泛關注。

注意力
Transformer架構的核心是電腦制。它專注於輸入資料的關鍵部分並進行處理。其O(N²)的高計算複雜度在處理長序列時造成了瓶頸。

量子化
這項技術透過降低神經網路的計算精度來提高處理速度並減少記憶體佔用。透過將32位元或16位元浮點數轉換為8位元或4位元整數,可以顯著提高計算效率。

蒸餾
這是一種將知識從大型教師模式遷移到小型、快速學生模式的技術。在擴散模型中,它用於將原本需要數十甚至數百個步驟的生成過程簡化為幾個步驟。

張量核心
NVIDIA GPU 中包含專用的矩陣運算加速硬體。它可以有效率地執行低位元精度運算,從而加速量化模型的推理。

閃光燈
一種用於加速注意力機制計算的演算法。它透過優化記憶體存取模式,最大限度地發揮GPU的硬體效能。該演算法是學術界和工業界廣泛採用的標準實現。

INT8 / W8A8
一種使用 8 位元整數的量化方法。 W8A8 表示權重和啟動值都量化為 8 位,這可以提高計算速度並減少記憶體使用。

TSAIL實驗室
清華大學統計人工智慧與學習實驗室從事機器學習、深度學習和統計推斷的基礎研究,尤其以開發高效的人工智慧模型而聞名。

vLLM
這是一個開源程式庫,用於加速大規模語言模型的推理。它採用了一種名為 PagedAttention 的獨特技術,顯著提高了記憶體效率和處理速度。

DeepSeek時刻
這個術語指的是中國人工智慧公司DeepSeek發布的高效模型對產業的影響。由於其低成本和高性能,它已成為人工智慧發展範式轉移的象徵。

[參考連結]

TurboDiffusion GitHub 程式碼庫(外部)
TurboDiffusion 官方程式碼庫,其中的程式碼、模型和文件都是開源的。

SageAttention GitHub 倉庫(外部)
SageAttention 的官方程式​​碼庫,SageAttention 是一種低位元注意力加速技術。與 FlashAttention2 相比,速度提升 2-5 倍。

稀疏線性注意力機制 (SLA) GitHub 程式碼庫(外部)
一個包含可訓練稀疏注意力技術的函式庫,結合 SageAttention 可達到 17-20 倍的速度提升。

rCM GitHub 倉庫(外部)
NVIDIA 開發了一種尖端的擴散蒸餾技術,只需 3-4 個步驟即可產生高品質視訊。

Vidu 官方網站(外部連結)
聖舒科技的AI視訊生成平台,已在全球200多個國家和地區使用。

Vidu API平台(外部)
Vidu 的開發者 API 平台,讓企業和創作者將影片產生功能整合到自己的服務中。

清華大學TSAIL研究組(外部)
清華大學機器學習研究組,從事人工智慧效率技術和多模態模型的基礎研究。

[參考文章]

TurboDiffusion:將視訊擴散模型的速度提升 100-200 倍(外部連結)
TurboDiffusion技術論文。本文詳細介紹如何將四項核心技術結合起來,達到100到205倍的加速。

SageAttention:用於即插即用推理加速的精確 8 位元注意力機制(外部資源)
關於 SageAttention 的技術論文。使用 8 位元量化的注意力加速技術,其運算速度比 FlashAttention2 快約 2.1 倍。

基於評分正則化連續時間一致性的大規模擴散蒸餾(外部)
rCM技術論文。具有高達140億個參數的大規模視訊擴散模型,可在1到4個步驟內實現高品質生成。

清華大學附屬DeepSeek:單卡200倍加速引領影片進入亞秒時代,矽谷為之瘋狂(外部連結)
本文解釋了 TurboDiffusion 的實際效果,據報道,單一 RTX 5090 GPU 可實現 100-200 倍的速度提升。

TurboDiffusion 發布影片產生加速框架(外部連結)
本文介紹了TurboDiffusion的實作細節和應用實例。結果表明,對於13億模型,速度提升約92倍;對於14億個模型,速度提升約174倍。

[編者註]

我們正見證著人工智慧影片生成時間從幾分鐘縮短到幾秒鐘的時代。這項技術不僅節省時間,更徹底改變了創作過程本身。我們可以預見,未來影片製作中將會出現一種全新的創作工作流程:透過反覆試驗將想法轉化為現實。

您希望如何使用這項技術?它有許多潛在用途,例如可以作為拓展個人創作者表達空間的工具,也可以為商業帶來新的機會。同時,我也想和大家一起探討科技的快速發展將對社會產生怎樣的影響。