小米發布開源的 MiMo-V2-Flash | 超高速 AI,每秒可處理 150 個 token,參數數量高達 3090 億 小米發布開源的 MiMo-V2-Flash | 超高速 AI,每秒可處理 150 個 token,參數數量高達 3090 億

小米發布開源的 MiMo-V2-Flash | 超高速 AI,每秒可處理 150 個 token,參數數量高達 3090 億

小米發布開源的 MiMo-V2-Flash | 超高速 AI,每秒可處理 150 個 token,參數數量高達 3090 億

小米已根據 MIT 許可證發布了 MiMo-V2-Flash。此 MoE 模型擁有 3090 億個參數和 150 億個活動參數,採用 128 個令牌滑動視窗和 5:1 混合比例。它在 AIME 2025 數學競賽和 GPQA-Diamond 科學知識基準測試中均位列開源模型前兩名。

它在 SWE-bench Verified 和 Multilingual 測試中均取得了開源模型中的最高排名,得分分別為 73.4% 和 71.7%。它提供 256k 的上下文窗口,推理速度為每秒 150 個字元,每百萬個輸入詞元收費 0.1 美元,每百萬個輸出詞元收費 0.3 美元。

模型權重以 MIT 許可證在 Hugging Face 上提供,推理代碼已貢獻給 SGLang。

從: 文献リンク隆重介紹 MiMo-V2-Flash

 - innovaTopia - (イノベトピア)
引自小米官方新聞稿

【社論】

小米的 MiMo-V2-Flash 晶片是最新 AI 發展趨勢的代表。雖然其規格參數顯示總共擁有 3090 億個參數,但由於採用了「混合專家(MoE)」架構,實際運行中僅使用了其中的 150 億個。這是一種類似團隊協作的系統,多個專家在其各自擅長的領域進行協作,系統不會持續佔用所有運算資源,而是針對每個任務調用最合適的專家。

一項顯著的技術特性是將混合注意力機制與多詞元預測(MTP)結合。大規模語言模型通常需要大量的記憶體(鍵值快取)來儲存上下文訊息,但MiMo-V2-Flash透過將128個詞元的窄視窗與全局注意力機制以5:1的比例結合,將記憶體使用量減少了約六分之一。此外,MTP能夠在單次推理中並行預測多個詞元,從而將有效速度提升2到2.6倍。

此模型的成本效益也十分顯著。其價格為每百萬輸入代幣0.10美元,每百萬輸出代幣0.30美元,遠低於主流商業模型。對於以往受高昂API費用困擾的公司和個人開發者而言,使用高性能模型已成為一種切實可行的選擇。

從長遠來看,此次發布對開源人工智慧生態系統的影響無法估量。此版本採用 MIT 許可證發布,允許研究人員和開發者自由改進並將其用於商業用途。自發布之日起,SGLang 就不斷收到推理代碼的貢獻,體現了小米對社群驅動型開發的承諾。

256K 的上下文視窗支援數百輪代理互動和對整個大型程式碼庫的分析,使以前不可能實現的複雜自動化任務和企業級程式碼產生成為現實。 73.4% 的 SWE-bench 驗證結果表明,該演算法能夠輔助人類工程師完成實際的軟體工程任務。

對於擁有涵蓋智慧型手機、物聯網設備和汽車等廣泛硬體生態系統的小米而言,自主研發人工智慧模式可作為產品整合的基礎。未來,小米很有可能將MiMo系列產品納入其產品線。

[術語]

教育部(專家混合組)
該架構結合了多個專用神經網路(專家)。透過根據輸入資料選擇性地啟動最合適的專家,即使參數總數很大,也能減少實際的計算量。

滑動視窗注意力機制<br>一種注意力機制,它將注意力集中在最近出現的詞元附近有限範圍(視窗)內的詞元上。它記憶體效率高,即使在處理較長的上下文時也能保持計算成本恆定。

鍵值快取<br>語言模型儲存的鍵(K)和值(V)訊息,用於記住過去的上下文。較長的上下文會消耗大量內存,因此效率是一個重要問題。

多標記預測(MTP)
此方法不僅可以預測單次推理中的下一個詞元,還可以同時預測多個詞元。並行處理可以顯著提高推理速度。

SWE-bench
用於衡量軟體工程能力的基準,評估解決從真實 GitHub 儲存庫中收集的問題的能力。

上下文視窗<br>語言模型一次可以處理的最大輸入文字長度。 256K 個字元相當於大約 200,000 個單詞,使其能夠處理長文件或整個大型程式碼庫。

MOPD(多教師線上政策精煉)
一種強化學習方法,它將多個教師模型的知識提煉到一個學生模型中。與傳統的SFT+RL流程相比,它以更少的運算資源實現了更高的效能。

[參考連結]

擁抱臉 – MiMo-V2-Flash (外接)
這是一個以 MIT 許可證發布的模型權重庫。提供多種版本供下載,包括基礎模型。

SGLang GitHub (外部)
高效能語言模型推理框架。小米從一開始就貢獻了推理代碼,並與社區合作。

[參考文章]

MiMo-V2-Flash:309B 開源 AI 模型 | 150 tok/s 最快 LLM (外部)
官方技術頁面。成本詳情包括 309B 參數、每秒 150 個代幣,以及 0.10 美元的輸入/0.30 美元的輸出。

小米 MiMo-V2-Flash 強勢來襲:搭載 3,090 億 AI 參數(外部)
詳細闡述 MoE 架構和混合注意力機制。分析 5:1 比例的技術特點。

小米 MiMo-V2-Flash:309B 參數 MoE 型號完整指南(外部)
闡述了 MOPD 範式,並實現了 73.4% 的 SWE 基準測試效能。在不到傳統運算資源 1/50 的情況下實現了同等效能。

專家混合解讀-擁抱臉(外在)
MoE架構的基本概念和實作方法。闡述如何在保持運算效率的同時擴展模型容量。

[編者註]

MiMo-V2-Flash 以 MIT 許可證發布,標誌著任何人都能使用尖端 AI 模型的新時代的到來。即使是那些先前因高昂的 API 費用而受阻的用戶,也能憑藉其極高的性價比輕鬆試用。您想將此模型用於哪種類型的專案?程式碼生成、長文本分析還是自訂代理開發?

現在,Hugging Face 已經提供免費下載,您可以親自體驗一下,看看它有哪些可能性。何不加入我們,一起探索這項技術的未來,包括為開源社群做出貢獻呢?