Claude Opus 4.5:Anthropic 最新旗艦人工智慧展示了「智能體時代」的現實 Claude Opus 4.5:Anthropic 最新旗艦人工智慧展示了「智能體時代」的現實

Claude Opus 4.5:Anthropic 最新旗艦人工智慧展示了「智能體時代」的現實


Anthropic 於 2025 年 11 月 24 日發布了 Claude Opus 4.5,這是該公司 Claude 系列的最新旗艦 AI 模型,據說在程式碼生成、電腦操作和協助處理複雜的企業任務方面具有優勢。

Anthropic 是一家人工智慧新創公司,由前 OpenAI 研究人員於 2021 年創立,據報道,該公司透過微軟和英偉達數十億至數百億美元的投資,估值已達到約 3500 億美元。

Claude Opus 4.5 是繼 2025 年 9 月發布的 Claude Sonnet 4.5 和 10 月發布的 Claude Haiku 4.5 之後的第三個主要模型,據說它在 SWE-bench Verified 基準測試中展現出的智能編碼性能超過了 Google 的 Gemini 3 Pro 和 OpenAI1 的 GPT-51。

理想用戶包括專業軟體開發人員、財務分析師、顧問、會計師和其他知識工作者,該公司正在推廣該產品在創建電子表格和幻燈片等日常任務以及深入研究方面的改進性能。

從: 文献リンク Anthropic公司發布最新人工智慧模型Claude Opus 4.5,此前該公司估值已達3500億美元。

【社論】

Anthropic 的 Claude Opus 4.5 不僅僅是“提高聊天準確率”,它標誌著其作為“實用智能體”邁出了重要一步,能夠為白領工作提供深度支持。尤其值得一提的是,其智能體編碼性能在 SWE-bench Verified 測試中超越了 Gemini 3 Pro 和 GPT-5.1,這表明它正接近可以應用於長期任務的水平,例如代碼庫的破譯以及自主重複糾錯和驗證。

過去兩個月,Sonnet 4.5、Haiku 4.5 和 Opus 4.5 的發布,為從輕量級到頂級型號的所有產品打造了一個統一的環境,它們都屬於“Claude 4.5 系列”。從商業角度來看,現在更容易獲得一致的安全設計和效能,同時也能根據應用場景在精確度和成本之間進行權衡。 Anthropic 在平台型號選擇方面的影響力可能會進一步擴大。

CNBC 的文章強調了 Anthropic 約 3500 億美元的估值,但仔細查看其係統架構和技術文件就會發現,安全性和治理同樣至關重要。系統越像智能體(例如瀏覽器操作、文件操作、開發環境控制等),一旦發生故障,影響範圍就越大。因此,結合憲法人工智慧和紅隊演練的風險緩解措施,對於日本企業在決定對 Anthropic 的信任程度時,不容忽視。

從實際應用角度來看,充分發揮 Opus 4.5 代產品的價值,關鍵在於將其與 Claude for Chrome、Claude for Excel 和 Claude Code 等外圍產品整合。這將顯著增加以往由人工完成的中等規模任務(例如在瀏覽器標籤頁之間切換、理解和編輯電子表格以及訪問本地程式碼庫)可以委託給人工智慧完成的場景。

然而,人們在開發者考試和基準測試中得分高於預期,並不一定意味著工程師將不再被需要。相反,顯然仍有許多領域需要人類負責,例如需求定義、架構設計、評審和最終責任,而那些能夠「在設計流程時考慮到人工智慧代理並管理團隊」的人才的價值可能會提升到更高的層次。

關鍵在於,「假設Claude Opus 4.5 等級的模型將成為標準,我該如何重新設計我的工作和業務?」未來幾年,隨著涉及人工智慧的工作流程在許多白領工作中成為常態,我認為,人與人工智慧之間的角色劃分、責任歸屬以及人類獨有的創造力應該如何分配,都將在職業發展和商業策略受到質疑。

[術語]

代理編碼
這是一個工作流程,其中大規模語言模型不僅產生程式碼,而且還透過自主地進行讀取儲存庫、運行測試和進行更正的循環來修復錯誤和添加功能。

SWE-bench 已驗證
這是一個評估基準,它使用來自開源專案的問題和測試案例來衡量 AI 模型修復實際軟體錯誤的能力。

知識工作者
這是一個通用術語,指的是金融分析師、顧問和會計師等職業,他們主要負責資訊處理、分析和決策,被認為是 Claude Opus 4.5 的主要目標使用者。

[參考連結]

人道組織官方網站(外部連結)
開發 Claude 系列人工智慧產品的新創公司 Anthropic 擁有一個官方網站,他們在上面發佈公司資訊、最新消息和安全措施。

Claude Opus 4.5 產品頁面(外部連結)
該文件提供了商業用途所需的信息,例如 Claude Opus 4.5 的概述、主要用例、安全策略和定價方案。

Claude Opus 4.5 系統卡(外置)
這是一份技術文件,總結了 Opus 4.5 的設計理念和操作注意事項,包括模型功能和局限性、風險評估、紅隊演練結果和安全措施。

克勞德十四行詩 4.5 引言頁(外部連結)
本文介紹了 Claude 系列中階型號 Sonnet 4.5 的效能和用途,以及它與 Opus 和 Haiku 之間的區別,在考慮成本和效能之間的平衡時會很有幫助。

克勞德·海庫 4.5 介紹頁(外部連結)
本文介紹了 Haiku 4.5 的輕量級和快速特性及其在即時應用中的優勢,幫助您了解 Claude 4.5 代的全部產品組合。

[參考影片]

[參考文章]

克勞德作品 4.5 簡介(外部連結)
Anthropic 官方部落格詳細介紹了 Claude Opus 4.5 的效能改進、用例、安全設計和交付計劃。

Claude Opus 4.5 系統卡(外置)
這是一份技術文檔,詳細介紹了 Opus 4.5 的安全性和治理方面,包括培訓政策、風險評估和紅隊演練結果。

Claude 4.5 的新增功能(外部)
該文件全面解釋了 Claude 4.5 系列的變化和基準測試結果,以及多模態支援和工具使用功能的更新。

Anthropic公司發布其最新人工智慧模型Claude Sonnet 4.5 (外部連結)
CNBC 的一篇文章宣布了 Sonnet 4.5 的發布,文章介紹了該機型的定位,即中端機型,並介紹了其在企業中的應用案例。

Anthropic公司推出Claude Haiku 4.5,一款體積更小、價格更低的AI模型(外部連結)
一篇宣布 Haiku 4.5 的文章解釋了它的特點,即體積小、成本低,並且在即時應用中具有優勢。

Claude Opus 4.5,以及為什麼評估新的LLM很困難(外部)
該試驗報告從開發人員的角度編寫,具體描述了系統在實際任務中的行為、評估的難度以及其優點和缺點。

[編者註]

在聽到 Claude Opus 4.5 的消息後,許多人可能會想:「我可以把多少工作交給人工智慧?」 如果你的日常工作中有一些任務耗時較長,但決策模式相對固定,那麼這可能是嘗試這種類智能體人工智慧的理想場景。

我想和大家一起探討人工智慧的發展潛力以及它的作用。您希望先將哪些任務委託給像 Opus 4.5 這樣的模型?