DeepSeek-V3.2 發布,開源實作 GPT-5 等級的推理效能 DeepSeek-V3.2 發布,開源實作 GPT-5 等級的推理效能

DeepSeek-V3.2 發布,開源實作 GPT-5 等級的推理效能

DeepSeek-V3.2 發布,開源實作 GPT-5 等級的推理效能

中國人工智慧公司 DeepSeek 發布了“DeepSeek-V3.2”和“DeepSeek-V3.2-Speciale”,這是為智能體構建的推理優先模型。

DeepSeek-V3.2 是 V3.2-Exp 的官方繼任者,可用於應用程式、網頁和 API。它是一款日常使用的模型,性能達到 GPT-5 水平,並在推理性能和輸出長度之間實現了最佳化平衡。

另一方面,DeepSeek-V3.2-Speciale 是一款推理能力與 Gemini-3.0-Pro 相當的模型,並在國際數學奧林匹克 (IMO)、中國數學奧林匹克 (CMO)、ICPC 世界總決賽和 IOI 2025 上取得了金牌級別的成績。

V3.2 系列引入了一種合成大規模智能體學習資料的方法,涵蓋超過 1800 個環境和超過 85000 條複雜指令,並首次實現了名為「工具使用中的思考」的功能,使工具能夠在使用過程中進行思考。

V3.2-Speciale 會消耗大量令牌,目前僅限 API 版本,支援工具調用,有效期至 2025 年 12 月 15 日 15:59 (UTC)。

這兩個模型都可以在 Hugging Face 上以開源形式獲取,並附有技術報告。

從: 文献リンク DeepSeek-V3.2 版本發布

【社論】

DeepSeek-V3.2 和 V3.2-Speciale 的發布挑戰了「更多運算資源 = 更強大的 AI 效能」的傳統觀念。即使在尖端 GPU 資源有限的情況下,該公司憑藉其創新的架構和學習策略,也達到了與 GPT-5 和 Gemini-3.0-Pro 相媲美的水平,從而改變了全球 AI 開發競賽的格局。

其核心技術概念是DeepSeek的專有註意力機制「DeepSeek稀疏注意力(DSA)」。與對所有詞元進行統一處理不同,該機制的概念是「僅選擇重要詞元並對其進行深入分析」。據稱,這可以在保持高精度的同時,減少處理長文本所需的計算量。

在智能體的背景下,我們尤其想專注於「工具使用中的思考」這一方面。雖然之前的許多模型都遵循「先在腦海中思考,然後調用工具」的模式,但 V3.2 的設計理念是允許使用者在調用工具的同時進行思考。其核心思想是,在需要多步驟 API 呼叫和多個工具協同工作的流程中,智能體的行為將更接近人類的試誤過程。

它的實際潛力已開始在數據中顯現:據報道,它在評估編碼工作流程的 Terminal Bench 2.0 測試中獲得了 46.4% 的分數,在處理軟體工程問題的 SWE-Verified 測試中獲得了 73.1% 的分數。這表明它正逐漸達到可以承擔各種開發任務的水平,例如 IDE 整合、自動重構和測試生成。

另一方面,V3.2-Speciale 的設計重點在於推理能力,這意味著它會消耗大量令牌,因此成本較高。 DeepSeek 在其模型卡中也承認,「就世界知識覆蓋範圍和日常對話的自然度而言,它仍然不如一些專有模型。」 因此,更準確的說法是,它是一款「擅長思維任務的專用工具」。

從長遠來看,將具備尖端推理能力的模型開源發布將產生深遠影響。即使是新創公司和中小企業也開始迎接挑戰,開發能夠整合自身資料並在本地安全運作的智慧體。同時,隨著具備先進推理能力的人工智慧日益普及,關於演算法偏差、問責制以及濫用風險等方面的監管和治理討論可能會變得更加重要。

[術語]

推理優先模型
這是一款人工智慧模型,旨在透過逐步思考的過程來解決複雜問題。它針對邏輯推理進行了最佳化,而非句子生成。

代理人
一種人工智慧系統,能夠自主執行任務,同時與外部工具、API、檔案系統等協同工作。其特點是根據人類設定的目標,反覆進行規劃、執行和驗證。

工具使用中的思考
DeepSeek-V3.2 的新功能將工具呼叫與內部思考緊密結合。透過在工具執行前後以及執行過程中插入思考過程,旨在提高多步驟任務的準確性和穩定性。

DeepSeek稀疏注意力(DSA)
這是DeepSeek開發的一種稀疏注意力機制。它將計算資源集中在高重要性的詞元上,而不是計算所有詞元之間的關係,因此即使輸入長文本也能實現高效率和高準確率。據說,其計算複雜度從O(L²)降低到O(Lk)。

國際數學奧林匹克競賽(IMO)
這是一項針對高中生的國際數學競賽。各國代表齊心協力攻克高階數學難題,角逐金、銀、銅牌。該競賽以其在科學和數學教育以及人才發掘方面的卓越表現而聞名。

中國數學奧林匹克競賽(CMO)
這是中國一項重要的數學競賽,同時也是選拔中國參加國際數學奧林匹克競賽(MO)代表的途徑。成績優異的學生被認為在進入中國頂尖大學方面具有優勢。

ICPC世界總決賽
ICPC世界總決賽是大學生的國際程式設計競賽,於2025年在阿塞拜疆巴庫舉行,比賽項目包括演算法和實作技能。

國際資訊學奧林匹克競賽 (IOI)
這是一項針對初高中學生的國際程式設計和演算法競賽。 2025 年的比賽在玻利維亞蘇克雷舉行,參賽者來自世界各地。

[參考連結]

DeepSeek 官方網站(外部連結)
這是中國人工智慧公司DeepSeek的官方網站。網站內容包括公司模式概述、新聞、招募資訊等。

DeepSeek API 文件(外部)
DeepSeek API 的官方文件。提供技術信息,例如模型列表、定價以及如何使用“工具使用中的思考”功能。

DeepSeek-V3.2 on Hugging Face (外部)
DeepSeek-V3.2 模型分發頁面。您可以下載模型檔案、查看技術報告並查詢許可證資訊。

DeepSeek-V3.2-Speciale on Hugging Face (外部)
這是專門用於推理的模型 V3.2-Speciale 的分發頁面。基準測試結果和使用說明匯總在模型卡片上。

DeepSeek聊天(外部)
這是一個官方聊天服務,可讓您透過瀏覽器試用 DeepSeek 模型。您可以免費試用程式設計、文字產生等功能。

[參考影片]

這是ICPC 2025世界總決賽的精彩片段影片。您可以看到來自世界各地的學生在演算法和程式設計專案上展開競爭。

[參考文章]

DeepSeek 最強大的開源代理模型引起轟動(外部)
本文詳細介紹了 DeepSeek-V3.2 系列的技術背景,涉及 DeepSeek 稀疏注意力、強化學習技術和訓練成本降低。

中國DeepSeek V3.2人工智慧模型以低成本實現了前沿性能(外部報告)
DeepSeek-V3.2 以更低的訓練成本實現了與 GPT-5 相當的性能。文中展示了 Terminal Bench 2.0 和 SWE-Verified 的基準測試結果。

DeepSeek V3.2 和 V3.2-Speciale 現已在 Cline(外部)上線。
本文闡述了開發支援工具 Cline 採用 DeepSeek-V3.2 系列的背景,並探討了「工具使用思維」對智能體開發的實際影響。

DeepSeek-V3.2 引入突破性稀疏注意力機制,實現更快的 AI 效能(外部連結)
本文解釋了稀疏注意力機制(DSA)的工作原理及其如何提升長文本處理性能,並結合具體示例介紹了稀疏注意力的優勢。

什麼是 DeepSeek V3.2?官方版本有哪些變化? (外部連結)
本文總結了實驗版 V3.2-Exp 到正式版 V3.2 的變化,並總結了穩定性和工具整合功能的差異。

[編者註]

即使從設計師的角度來看,我認為「邊思考邊使用工具的人工智慧」這個概念也是一個非常有趣的演進。 「研究」、「創造」和「驗證」這三個過程,過去往往是各自獨立的,而現在正逐漸在一個智能體內部無縫銜接。

如果你已經在使用人工智慧進行編碼或寫作,你可能遇到過這樣的時刻:「這就是瓶頸所在。」 如果你記下這些不適的時刻,當你嘗試像 V3.2 這樣以推理為中心的模型時,就更容易確定發生了哪些變化以及它如何融入你的工作流程。

我認為,除了性能之外,「如何與它們互動」也是一個同樣重要的主題。我們如何在不完全依賴便利性的前提下,維持自身的判斷標準和感知力呢?如果我們能夠透過不斷嘗試和摸索,共同享受智能體帶來的新時代,我將感到非常欣慰。