Mistral AI 發表 Devstral 2:開源編碼模型,擁有 123 億個參數,成本效益提升 7 倍,SWE-bench 效能提升 72.2%。 Mistral AI 發表 Devstral 2:開源編碼模型,擁有 123 億個參數,成本效益提升 7 倍,SWE-bench 效能提升 72.2%。

Mistral AI 發表 Devstral 2:開源編碼模型,擁有 123 億個參數,成本效益提升 7 倍,SWE-bench 效能提升 72.2%。

Mistral AI 發表 Devstral 2:開源編碼模型,擁有 123 億個參數,成本效益提升 7 倍,SWE-bench 效能提升 72.2%。

2025年12月9日,Mistral AI發表了Devstral 2、Devstral Small 2和Mistral Vibe CLI。 Devstral 2是一個擁有1230億參數的Transformer模型,在SWE-bench Verified測試中取得了72.2%的成績,擁有25.6萬的上下文窗口,並以修改後的MIT許可證發布。

Devstral Small 2 擁有 240 億個參數,在 SWE-bench Verified 測試中獲得 68.0% 的準確率,並採用 Apache 2.0 授權協議。這兩個模型都比 DeepSeek V3.2 和 Kimi K2 更小。 Devstral 2 將暫時透過 API 免費提供,之後每百萬代幣的輸入費用為 0.40 美元,輸出費用為 2.00 美元;而 Devstral Small 2 的輸入費用為 0.10 美元,輸出費用為 0.30 美元。

Mistral Vibe CLI 是一款採用 Apache 2.0 授權的命令列代理,也可作為 Zed 的擴充功能使用。據稱 Devstral 2 至少可在四個 H100 級 GPU 上運行,而 Devstral Small 2 則可在單一 GPU 甚至單一 CPU 上運行。

從: 文献リンク隆重介紹:Devstral 2 和 Mistral Vibe CLI。 | Mistral AI

 - innovaTopia - (イノベトピア)
引自 Mistral AI 官方新聞稿

【社論】

由 Mistral AI 發布的 Devstral 2 是一款極為重要的開源編碼模型。

最顯著的特點是其參數規模雖小但性能優異。 Devstral 2 僅有 123 億個參數,卻在 SWE-bench Verified 測驗中取得了 72.2% 的成績。這意味著它比 DeepSeek V3.2(約 615 億個參數)和 Kimi K2(約 984 億個參數)小得多,卻依然能在實際編碼任務中提供極具競爭力的性能。

更令人驚訝的是,參數量僅為 24 億的 Devstral Small 2 模型竟然達到了 68.0% 的得分。車型體積小巧,足以在筆記型電腦或單 GPU 上運行,卻展現出與參數量高達 120 億的車型相媲美的性能。這意味著企業開發人員現在可以在本地環境中獨立開發程式碼,而無需依賴雲端 API。

另一項成本的創新也不容忽視。 Devstral 2 的 API 費用為每百萬代幣輸入 0.40 美元,輸出 2.00 美元,與 Claude Sonnet 4.5 的 3.00 美元/15.00 美元相比,成本效益最高可達 7 倍。然而,Claude 在人工評估方面仍然具有優勢,並且與封閉源模型之間仍然存在品質差距。

Mistral Vibe CLI 的問世標誌著 AI 代碼助理進入了一個全新的時代。與傳統的整合在 IDE 中的工具不同,它能夠在終端環境中自主執行多個文件的更改,並識別完整的 Git 歷史記錄和文件結構。該工具採用 Apache 2.0 許可證,並允許企業根據自身獨特的工作流程進行靈活客製化。

這項公告標誌著人工智慧開發民主化進入了一個新階段:強大的編碼人工智慧正變得更小、更便宜、更開放,使新創公司和個人開發者都能負擔得起全面的人工智慧輔助開發。

[術語]

SWE-bench 已驗證
此基準測試評估人工智慧模型在實際軟體工程任務中的能力。它包含 500 個任務,這些任務源自 GitHub 上的實際問題和拉取請求,並經過人工驗證以提高可靠性。錯誤率相對較低,僅 5-10%,已被廣泛採用為衡量人工智慧編碼實用性的標準指標。

範圍
這是神經網路在學習過程中不斷調整的數值,它反映了模型的規模和能力。 123B 表示 1230 億個參數,24B 表示 240 億個參數。一般來說,參數越多,效能越好,但計算成本和所需的硬體也會隨之增加。

上下文視窗
這指的是人工智慧模型一次可以處理的文字量。 25.6萬個詞元相當於大約19.2萬個單詞,這意味著它可以處理整個程式碼庫並理解其內容。

Apache 2.0 授權 / 修改後的 MIT 授權<br>Apache 2.0 授權規定了開源軟體的使用條款。它允許免費的商業用途和修改,並包含專利保護。修改後的 MIT 許可證通常非常靈活,但也可能包含一些額外的特定條件。

代理通訊協定(ACP)
它是人工智慧代理與開發環境和工具進行通訊的標準協議,為與 IDE 和終端無縫整合提供了一種機制。

[參考連結]

Mistral AI (外部)
一家法國人工智慧新創公司,專注於開發高效能、高效率的開源語言模型。成立於2023年4月。

SWE-bench (外部)
這是評估人工智慧模型軟體工程能力的基準測試的官方網站。您可以在排行榜上查看每個模型的效能對比。

Cline(GitHub) (外部)
一個用於 VS Code 的自主編碼代理,可以建立和編輯檔案、執行命令,並逐步執行瀏覽器操作。

Cline 官方網站(外部連結)
這是人工智慧程式設計助理Cline的官方網站。它為初學者和經驗豐富的開發者提供互動式開發支援工具的相關資訊。

[參考文章]

Mistral 推出 Vibe CLI 代理程式和企業級編碼的開源 Devstral 2 模型(外部連結)
Mistral AI 發布了 Devstral 2 和 Vibe CLI,提供企業級編碼解決方案。

Mistral Devstral 2:比 Claude 便宜 7 倍,SWE-Bench(外部​​)72%
據報道,Devstral 2 的成本效益比 Claude Sonnet 4.5 高出 7 倍。

SWE-bench 已驗證(外部)
本文詳細介紹了 OpenAI 發布的 SWE-bench Verified 的建置方法和評估標準,並解釋了人工驗證流程。

SWE-bench Verified 評估哪些技能? (外部)
本文分析了基準測試的可靠性,結果顯示 SWE-bench Verified 的錯誤率相對較低,為 5-10%。

[編者註]

您如何在開發環境中使用 AI 助理?隨著 Devstral 2 等高效能模型開源的出現,即使對於私有程式碼庫,全面部署 AI 助理也已成為現實。特別是運行在本地環境中的 Devstral Small 2,對於無需依賴雲端的開發而言,是一個極具吸引力的選擇。

讓我們一起思考成本效益和效能之間的平衡,以及開放性所帶來的可能性。人工智慧輔助開發的未來似乎離我們更近了一步。