
儘管人工智慧代理面臨長時間忘記指令的挑戰,但 Anthropic 為其 Claude Agent SDK 發布了一項突破性的解決方案。
什麼是能夠連接多個會話的兩階段代理設計?我們將探討可能改變未來開發網站的各種可能性。
2025 年 11 月,Anthropic 宣佈為 Claude Agent SDK 設計新的框架,以解決長時間運行的 AI 代理程式的記憶體問題。
由於情境視窗的限制,智能體在執行長時間任務時常會忘記指令或部分對話內容,導致行為不穩定。為了解決這個問題,Anthropic 提出了兩階段方法,該方法由初始化智能體和編碼智能體組成,旨在透過多會話設計實現長期任務的持續執行。
在諸如使用 Claude Opus 4.5 開發“claude.ai 克隆”之類的任務中,我們發現了一些案例,其中單個代理無法僅使用高級指令構建生產質量的 Web 應用程序,而該設計正是從對這類失敗模式的分析中得出的。
從:
Anthropic 表示,他們透過新的多會話 Claude SDK 解決了長期存在的 AI 代理問題。
【社論】
Anthropic 這次帶來的與其說是提升 LLM 本身的效能,不如說是「面向長期運作的框架設計」。無論 Claude 多麼強大,它都無法突破上下文視窗的物理限制。因此,可以說 Anthropic 切實展示了基於 Claude Agent SDK 的操作層最佳實踐,例如「如何記錄任務、如何保存記錄以及如何過渡到下一個會話」。
許多公司表示,即使他們能夠讓智能體在概念驗證(PoC)階段運行,他們仍然難以設計出「即使運行數小時甚至數十小時也不會崩潰的智能體」。 Anthropic展示的失敗模式,例如“試圖一次性處理太多任務導致上下文在中途崩潰”以及“在任務尚未完成時就判斷其已完成”,與基於 OpenAI Agents SDK 或 LangChain 構建智能體時經常遇到的失敗案例高度重合。由此可見,人類方面的任務設計和工作流程設計與智能體的「智能」同等重要。
這種雙層結構(初始化代理 + 編碼代理)的設計充分考慮了軟體工程師的日常開發流程。初始化代理負責組織和記錄專案的基礎架構、文件結構以及已執行的操作,而編碼代理則專注於「將單次會話中需要完成的工作分割成小塊,並僅保留差異部分」。透過整合測試工具,我們可以看到其目標是建立一個類似“代理的持續整合管線”,甚至包含缺陷檢測功能。
同時,針對長時間運行智能體的記憶體設計,相關研究和產品迅速成長,包括 LangMem 和 Memobase 等長期記憶平台,以及 Swarm 等多智能體框架。它們各自擁有不同的設計理念和架構,目前尚不清楚哪種方案才是最優解。 Anthropic 計畫在未來的實驗中驗證最優配置,包括單一通用編碼智能體是否足夠,或是否需要多智能體配置。值得注意的是,該框架也被定位為「候選方案之一」。
或許最大的影響在於,「將智能體視為長跑運動員的藍圖正以相當具體的形式開始傳播」。雖然演示側重於全端 Web 應用開發,但 Anthropic 也探討了將其應用於長期重複性任務(例如科學研究和金融建模)的潛力。這可以被視為朝著從聊天機器人等一次性應用轉向「可以委託執行持續性任務的 AI 同事」邁出的一步。
然而,長時間運作的智能體也存在風險和可審計性問題。圍繞 Claude 4 和 OpenAI 的智能體功能展開的討論已經引發了一些問題,例如「如果智能體反復做出錯誤決策,授權智能體應該在什麼情況下介入?」以及「誰應該承擔責任?」我認為,像 Anthropic 這樣公開智能體設計理念的做法,將有助於解釋和復現智能體的行為,並將成為從監管和治理角度討論相關的重要一步。
未來幾年,產品差異化的空間可能不僅來自於模型效能的競爭,還可能來自於代理架構、記憶體設計以及測試和稽核機制等工程方面。 Anthropic 的最新公告正是這一趨勢的典型體現。
[術語]
上下文視窗
這指的是LLM一次可以儲存和處理的文字範圍。如果超出這個範圍,舊資訊將會遺失,這可能會成為長期任務的設計瓶頸。
代理記憶
這指的是人工智慧代理保留過去的指令、對話、任務進度等訊息,並將其用於下一步的一般機制。
代理線束
它指的是為長時間運行的代理程式設計的結構框架,包括執行環境、任務劃分、日誌記錄方法和測試技術。
全端 Web 應用程式開發<br>指 Web 應用程式所有層(包括前端、後端和資料庫)的一致開發。
代理任務
這個術語通常指涉及自主決策、規劃和使用外部工具的持續性、長期性人工智慧任務。
[參考連結]
Anthropic(Claude/Claude Agent SDK) (外部)
這是提供「Claude」系列LLM(強調安全性和一致性)以及Claude Agent SDK的AI公司的官方網站。
Claude(官方產品網站) (外部連結)
這是 Anthropic 提供的對話式人工智慧服務的官方網站,它提供了一個介面,允許用戶透過瀏覽器使用 Claude 模型。
人類多智能體研究系統(外在)
這是 Anthropic 發布的多智能體研究系統的說明頁面,介紹了多智能體協作的設計理念和實驗結果。
LangChain (外在)
這是使用 LLM 建立應用程式和代理的開源框架的官方網站,並提供各種整合功能。
Memobase (外部)
這是為LLM代理提供長期記憶基礎設施的服務的官方網站,具有文件搜尋和知識儲存功能。
OpenAI Swarm(GitHub) (外部)
這是一個「Swarm」的儲存庫,Swarm是由OpenAI發布的智能體協作框架,其中包含多智能體實現的具體範例和程式碼。
谷歌研究院 – 人工智慧(外部)
這是介紹Google人工智慧研究的官方網站,並發布有關智能體記憶和持續學習的論文和專案摘要。
[參考文章]
適用於長期運行代理程式的有效工具 – Anthropic (外部)
這是一篇技術博客,詳細介紹了長時間運行代理的框架設計,包括故障案例、任務劃分、交付物交接和測試集成,以及實驗結果。
我們如何建構多智能體研究系統—Anthropic (外部)
本文總結了多智能體協同完成任務的研究系統的結構、原理、評估方法和未來挑戰,有助於理解多智能體結構。
利用長期記憶增強人工智慧代理程式-VentureBeat (外部)
本文比較了 LangMem SDK、Memobase 和 A-Mem 等記憶體框架,並總結了長期記憶對代理可靠性和業務適用性的影響。
超越單一模型人工智慧-VentureBeat (外部)
本文從編排和可靠性的角度探討了從以單一模型為中心的設計向基於多個模型和多個代理的架構的過渡。
當你的法學碩士(LLM)報警時——VentureBeat (外部連結)
本書以 Claude 4 為例,解釋了類別代理人工智慧帶來的權威性、風險、可審計性和治理問題,並提出了風險堆疊的新方法。
Anthropic 的新款 Claude 可以連續工作 30 小時進行程式設計——VentureBeat (外部報道)
文章介紹了 Claude 如何能夠連續編寫程式碼長達 30 小時,並解釋了使用代理執行長期任務的範例和局限性,以及業務應用場景。
[編者註]
您是否意識到長時間運行人工智慧代理可能會出現的問題?有些人可能已經在生活中遇到過這種情況。
迄今為止,針對此類情況都採取了哪些措施?另外,您是否願意僱用像克勞德這樣的智慧助理?這會是什麼樣的工作?或者,您認為在多大程度上可以長期完全將工作交給人工智慧?我很樂意與您共同探討與人工智慧共存的未來。