
更多相互協作的人工智慧代理真的會變得更聰明嗎?
谷歌研究院、谷歌DeepMind和麻省理工學院的最新研究透過數值方法證明了多智能體系統在什麼條件下能夠正常運作,以及在什麼條件下會失效。
來自Google研究院、GoogleDeepMind和麻省理工學院(MIT)的作者於2025年12月9日在arXiv上發表了論文“邁向可擴展代理系統的科學”,論文編號為arXiv:2512.08296v1。
我們使用四個基準測試(Finance-Agent、BrowseComp-Plus、PlanCraft 和 Workbench)對總共 180 種配置進行了評估,評估對象包括單代理系統和四種類型的多代理系統(獨立、集中式、分散式和混合式),並使用了來自 OpenAI、Google 和三個 Anthropic 的 LLM。
從:
邁向智能體系統規模化科學
【社論】
多智能體系統並非簡單地「增加智能體數量就能增強其性能」;其結果很大程度上取決於任務性質與協作結構之間的兼容性。本文試圖透過可測量的指標和受控的比較,而非經驗法則來解釋這一點。
目標是涉及與外部環境互動和工具使用的基於代理的任務。我們使用四個基準測試平台:Finance-Agent、BrowseComp-Plus、PlanCraft 和 Workbench,將單代理系統 (SAS) 與四種類型的多代理系統(獨立型、集中式、分散式和混合型)進行比較,以探討協作的優勢和劣勢所在。
從實際角度來看,重要的是該設計的核心理念是「合作總是有成本的」。隨著工具呼叫次數和環境往返次數的增加,智能體之間的資訊共享和整合會成為瓶頸,在固定的計算預算下,有時合作反而會適得其反。
也有人認為,故障的發生方式取決於協作的形式:在沒有驗證檢查點的系統中,錯誤往往會傳播;而在整合和驗證集中化的系統中,錯誤往往會被抑制。
從產品角度來看,這項研究的重點已從擴展智能體本身轉向「將人工智慧嵌入業務流程的設計原則」。營運上的差異在於選擇了一種協作結構,不僅要考慮準確性,還要考慮可記錄性、驗證點的設計、人工幹預的空間,甚至成本估算。
另一方面,多智能體系統很容易模糊責任界限,在需要問責和審計的領域,如果整合器的設計、工具執行結果的驗證以及在發生故障時回滾的能力不足,則係統可能變得無法運作。
[術語]
多智能體系統(MAS)
一種基於 LLM 的多個代理程式透過交換訊息和其他方式進行協作以完成任務的方法。
單代理系統(SAS)
在該方法中,單一 LLM 實例負責在順序循環中進行推理和行動。
集中
一種結構,其中協調者監督子代理並執行聚合和驗證。
去中心化
一種主體之間進行點對點資訊交換並達成共識的結構。
獨立的
一種結構,其中問題並行解決,參與者之間無需溝通,最後再進行整合。
雜交種
一種結合了協調者控制和有限對等通訊的結構。
主動任務<br>一個通用術語,指需要與外部環境進行多步驟互動、在部分觀察下收集資訊以及根據環境回饋更新策略的任務概念。
[參考連結]
arXiv:邁向可擴展代理系統的科學(2512.08296) (外部)
主要資訊頁面,您可以在這裡查看摘要、作者、投稿歷史記錄以及 PDF/HTML 連結。
arXiv HTML:邁向規模化智能體系統的科學(外部連結)
一個 HTML 主要資訊頁面,可讓您按章節閱讀正文,並輕鬆參考圖表。
arXiv:BrowseComp-Plus (2508.06600) (外部)
主要資訊頁面,您可以在這裡查看 BrowseComp-Plus 的設計意圖和評估設定。
GitHub:texttron/BrowseComp-Plus (外部)
此儲存庫將彙編 BrowseComp-Plus 的實作和用法,並作為複現的起點。
[參考文章]
ArXivIQ:邁向可擴展代理系統的科學(外部連結)
本文的論點是為一般大眾組織的,關鍵點和數據以易於理解的方式呈現。
擁抱面孔論文:邁向規模化智能體系統的科學(外部)
本頁提供了論文摘要和相關論文指南,可用於探索相關研究。
精彩論文:邁向規模化智能體系統的科學(外部)
一個匯總論文資訊並提供相關連結和相關資訊快速訪問的頁面。
湧現心智:邁向可擴展智能體系統的科學(外部連結)
索引頁總結了論文的主要觀點,並提供了探索相關主題的指南。
arXiv:BrowseComp-Plus (2508.06600) (外部)
BrowseComp-Plus 的主要資訊文件頁面對於評估設計和了解背景很有幫助。
[編者註]
在嘗試多智能體系統時,我們往往關注「要增加多少人」。如果可能的話,為什麼不先考慮一下你目前處理的工作是否可以分成多個並行進程,或者各個步驟之間是否緊密相關呢?
光是區分哪些情況 SAS 就足夠了,哪些情況需要整合和驗證,就能讓採用 SAS 變得更有說服力。如果您有任何感興趣的用例,請告訴我們。