黑森林實驗室發布 FLUX.2:以 320 億個參數樹立影像生成 AI 的新標桿 黑森林實驗室發布 FLUX.2:以 320 億個參數樹立影像生成 AI 的新標桿

黑森林實驗室發布 FLUX.2:以 320 億個參數樹立影像生成 AI 的新標桿


德國人工智慧新創公司 Black Forest Labs 於 11 月 26 日發布了圖像生成和編輯系統 FLUX.2。該公司由 Stable Diffusion 的原作者 Robin Rombach、Patrick Esser 和 Andreas Blattmann 於 2024 年創立,並已獲得由 Andreessen Horowitz 領投的 3100 萬美元種子輪融資。

FLUX.2 包含五個版本:Flux.2 [Pro] 是最高效能版本,Flux.2 [Flex] 是參數可調版本,Flux.2 [Dev] 是一個擁有 320 億個參數的開放權重模型,Flux.2 [Klein] 即將推出,Flux.2 VAE 授權將以 Apache 2.0 發布。它支援最多 10 張參考影像,並允許以 400 萬像素解析度產生和編輯影像

在基準測試中,FLUX.2 [Dev] 在文字轉影像產生方面取得了 66.6% 的勝率,單引用編輯方面取得了 59.8% 的勝率,多引用編輯方面取得了 63.6% 的勝率。 FLUX.2 [Pro] 的成本為每百萬像素 0.03 美元,標準 1024x1024 影像產生成本為每百萬像素 0.030 美元

從技術上講,它採用了一種潛在流匹配架構,將基於 Mistral-3 (24B) 的視覺語言模型與整流轉換器結合。

從: 文献リンク Black Forest Labs推出Flux.2 AI圖像模型,挑戰Nano Banana Pro和Midjourney | VentureBeat

【社論】

FLUX.2 的發布標誌著人工智慧圖像生成市場的一個重要轉折點。 Black Forest Labs 由 Stable Diffusion 的開發者創立,憑藉其技術實力和策略性的開源商業模式,在短短一年多的時間裡就躍居影像生成人工智慧領域的前沿。

新發布的 FLUX.2 之所以引起關注,可以從以下三個面向看出。

首先,我們來談談技術上的進步。 FLUX.2的最大亮點在於其 320 億參數架構,該架構結合了名為 Mistral-3 的 240 億參數視覺語言模型和整流變換器。這使得它能夠基於現實世界的物理定律產生影像,而這正是以往模型難以做到的。由於它是基於對光照行為、材質表現和空間結構等元素的邏輯理解來產生影像,因此顯著降低了以往那種「人工智慧感」。

尤其值得一提的是多重參考功能,它允許您同時處理多達 10 張參考影像。這不僅是一項技術進步,更是滿足實際業務需求的實用功能。它解決了商業應用中的許多難題,例如創建大量符合品牌規範的廣告素材,或在保持角色一致性的前提下產生 100 種不同的版本。

此外,它直面排版問題,而這正是生成式人工智慧迄今為止的弱點。它能夠可靠地為用戶介面元素、資訊圖表、海報等產生清晰易讀的文本,這將極大地提升其在設計行業的實際應用價值。

接下來,我們來談談商業模式和生態系統策略。 Black Forest Labs 的巧妙之處在於,他們建立了一條產品線,其中包含多個版本,涵蓋了完全開源和完全閉源兩種類型。 Flux.2 VAE 完全基於 Apache 2.0 開源,Flux.2 [Dev] 是開源的,但商業用途需要單獨的許可證,而 Flux.2 [Pro] 和 [Flex] 則是完全專有的。

這使得研究人員和愛好者能夠在開放的環境中進行實驗和改進,並透過他們的創新來增強公司的生態系統。同時,企業用戶可以選擇穩定的API服務,並獲得品質保證和支援。這種混合策略使其區別於Google和OpenAI等公司完全封閉的策略,並代表了一種利用社群力量建立永續商業模式的新模式。

價格方面也極具競爭力。 FLUX.2 [Pro] 每百萬像素的成本僅為 0.03 美元。這比Google的 Nano Banana Pro(Gemini 3 Pro Image)的性價比高出 4-8 倍,後者 1K-2K 圖像的成本為 0.134 美元,4K 圖像的成本為 0.24 美元。憑藉約 1030-1050 的 ELO 評分,在保持影像品質的同時大幅降低成本,有望促進其在大型企業中的廣泛應用。

最後,我們將重點放在硬體的可近性和企業級應用。一個擁有 320 億參數的模型通常需要 90GB 的顯存,這使得它在普通 GPU 上無法運作。然而,透過與 NVIDIA 的合作,我們實現了 FP8 量化,將顯存需求降低了 40%,效能也提升了 40% 。此外,我們與 ComfyUI 合作,實現了權重串流傳輸,將模型的部分運算卸載到系統記憶體中,使其能夠在高階消費級 GPU 上運行。

這種技術上的獨創性使得擁有 RTX 4090 等 GPU 的創作者和工作室能夠在本地運行,從而減少對雲端 API 的依賴——這對出於數據治理或合規性原因想要避免使用雲端的公司來說是一個主要優勢。

從企業角度來看,FLUX.2 的設計充分考慮了實際應用需求。將文字轉圖像和圖像編輯功能整合到單一模型中,降低了流程複雜性,簡化了資料流。多重引用功能無需針對特定品牌的輸出進行自訂微調,從而降低了開發成本和時間。

然而,需要注意的是:開放權重模型需要內部控制措施,例如模型完整性管理、版本追蹤和推理監控。排版和逼真構圖的生成能力增強也增加了濫用風險,因此建立內容治理框架至關重要。

與競爭對手相比,競爭日益激烈,湧現出Google的Nano Banana Pro、Anthropic的Claude Opus 4.5以及上週剛發布的Gemini 3等強大的產品。每家公司都在發布具有增強「推理能力」的圖像生成模型,這表明整個行業正在從「簡單的圖像生成」轉向「邏輯一致的視覺表示」。

Black Forest Labs 的融資情況相當引人注目。該公司在 2024 年 8 月完成 3,100 萬美元的種子輪融資後,據報正在尋求追加 2 億至 3 億美元的融資。其快速成長得益於 Stable Diffusion 開發人員的過往業績,以及他們為 xAI 的 Grok 2 和 Meta 等大型科技公司提供技術支援的豐富經驗。

FLUX.2 代表著從實驗性演示到可預測、可擴展的生產系統的過渡,而 Black Forest Labs 在生成式人工智慧從玩具到生產基礎設施的演變過程中發揮關鍵作用。

[術語]

公開級
雖然模型權重是公開的,但格式並非完全開源,程式碼和訓練資料通常是私有的,商業用途可能需要單獨的授權。

變分自編碼器(VAE)
這種神經網路可以將影像轉換為壓縮的潛在空間,然後再將其恢復為高解析度影像。在 FLUX.2 中,這項底層技術實現了 400 萬像素的編輯功能。

潛在空間
生成式人工智慧是一個將高維度資料(例如圖像)壓縮成低維抽象表示的空間。生成式人工智慧在這個空間中運行,從而實現高效的學習和生成。

整流式流量變壓器
一種改進擴散模型的生成模型架構。它優化了將資料轉換為分佈的過程,從而能夠更有效率地產生影像。

視覺語言模型(VLM)
FLUX.2 是一款能夠理解並處理影像及文字的人工智慧模型。它整合了 Mistral-3 (24B) 處理器,以提供現實世界的知識和上下文理解能力。

FP8 量化
一種將 32 位元浮點數轉換為 8 位元浮點數的技術,該技術在保持精度的同時,顯著減少了記憶體使用和計算量。

ELO評分<br>一種源自國際象棋等級分系統的相對評估指標。它是透過人類評估員對人工智慧影像生成模型的品質進行直接評估而計算得出的。

多參考條件反射
同時使用多個參考影像作為輸入來產生新影像的技術,同時保持角色、風格、產品等方面的一致性。

Apache 2.0 許可證<br>一種開源許可證,允許免費使用,包括商業用途。它明確授予專利權,使公司能夠輕鬆採用。

舒適使用者介面
一個開源的 AI 圖像生成介面,支援基於節點的工作流程設計,讓您可以直觀地建立複雜的圖像生成流程。

[參考連結]

黑森林實驗室官方網站(外部連結)
FLUX.2 的官方網站,由開發該軟體的 AI 新創公司提供。存取模型測試平台、API 和技術文件。

FLUX.2 模型頁(外部)
本文列出了 FLUX.2 各版本(Pro、Flex、Dev)的詳細規格、價格和使用說明,並提供了許多實際範例圖片供您查看。

FLUX.2 技術部落格(外部)
官方部落格文章解釋了 FLUX.2 的技術細節、架構和基準測試結果。

擁抱臉 – FLUX.2 [開發版] 模型(外部)
託管 FLUX.2 [dev] 開放權重版本的模型權重、範例程式碼和授權資訊。

NVIDIA FLUX.2 優化文章(外部連結)
詳細解釋NVIDIA的FP8量化和RTX GPU優化。針對GeForce RTX使用者的實施指南。

Cloudflare Workers AI – FLUX.2 整合(外部)
了解如何在 Cloudflare 的邊緣運算平台上使用 FLUX.2。

[參考文章]

FLUX.2:前沿視覺智慧 | 黑森林實驗室(外部)
官方技術部落格文章揭示了 FLUX.2 的技術細節、架構設計和基準測試結果,詳細介紹了與 Mistral-3 24B 視覺語言模型的整合、潛在空間重新訓練以及多參考支援的實現。

FLUX.2 影像產生模型現已發布,並針對 NVIDIA RTX GPU 進行了最佳化(外部連結)
NVIDIA官方公告文章詳細闡述了透過對320億參數模型進行FP8量化,將顯存需求降低40%,效能提升40%的最佳化措施。此外,文章還介紹了透過與ComfyUI整合實現的權重流功能。

Black Forest Labs 發布針對 NVIDIA RTX GPU 最佳化的 FLUX.2「推理」影像模型 – WinBuzzer (外部)
我們分析了 FLUX.2 如何整合 Mistral 的 VLM 來增強其推理能力,並報告了一項技術突破,該突破使得基於現實世界邏輯(而不僅僅是像素機率)的圖像生成成為可能。

與 Black Forest Labs 合作,將 FLUX.2 -dev- 引入 Cloudflare Workers AI (外部)
Cloudflare 宣布整合 FLUX.2 [dev],重點介紹了實現細節,例如支援透過 multipart 表單資料輸入最多四個 512x512 像素的輸入影像、400 萬像素輸出以及 JSON 提示。

Black Forest Labs 發布 Flux 2,新增多參考功能 | The Decoder (外部連結)
本文詳細分析了 FLUX.2 處理多達 10 張參考影像的能力、對 400 萬像素解析度的支援以及改進的文字渲染效果。文中也對五款型號進行了比較。

Nano Banana Pro:Google 的 14 張圖像 AI 模型,支援 4K 輸出,售價 0.24 美元 | GigaNectar (外部連結)
Google Nano Banana Pro(Gemini 3 Pro 圖像)的詳細資訊。 4K 影像的定價為 0.24 美元,2K 影像的定價為 0.139 美元,為與 FLUX.2 的價格比較提供了重要的參考資料。

AI影像產生器「黑森林」正在洽談33億美元收購案-彭博社(外部通報)
據報道,Black Forest Labs正在洽談融資2億至3億美元,估值達32.5億美元。最新一輪融資由Salesforce Ventures和Andreessen Horowitz旗下的AMP領投。

[編者註]

人工智慧圖像生成領域正從單純地創建逼真圖像迅速發展到可應用於實際商業領域。像 FLUX.2 這樣的模型的出現不會搶走設計師和創作者的工作,反而會開闢新的創意領域。從 10 張參考圖像創建連貫的視覺效果,或在幾秒鐘內生成帶有易讀文字的資訊圖表——這些功能拓展了我們的創作可能性。同時,我們能夠如此輕鬆地創造過於逼真的圖像,也引發了倫理問題。如何使用人工智慧圖像生成工具?如何劃定界線?我們希望探討創造力和責任之間的平衡。