人類學 SCONE 基準測試顯示 AI 代理的 DeFi 攻擊能力:460 萬美元智能合約利用 人類學 SCONE 基準測試顯示 AI 代理的 DeFi 攻擊能力:460 萬美元智能合約利用

人類學 SCONE 基準測試顯示 AI 代理的 DeFi 攻擊能力:460 萬美元智能合約利用

人類學 SCONE 基準測試顯示 AI 代理的 DeFi 攻擊能力:460 萬美元智能合約利用

如果人工智慧代理商要衡量它能從 DeFi 智能合約中竊取多少美元,會發生什麼事?

SCONE-bench 揭示了 Claude 和 GPT-5 已經獲得了與人類駭客相當的「經濟攻擊能力」。


12 月 1 日,Anthropic 和 MATS 的研究人員公佈了他們的測量結果,即人工智慧代理可以從現實世界的 DeFi 智能合約中「竊取」多少錢(以美元計)。

該研究在 SCONE-bench 上評估了 10 個模型,包括 Claude Opus 4.5、Claude Sonnet 4.5 和 GPT-5。 SCONE-bench 收集了 2020 年至 2025 年間實際遭受攻擊的 405 個合約。具體而言,該研究發現,在 2025 年 3 月 1 日之後被利用的 34 個合約中,有 19 個在技術上能夠竊取總計 460 萬美元。

此外,在對幣安智能鏈上的 2,849 個新合約進行模擬時,Sonnet 4.5 和 GPT-5 發現了兩個零日漏洞,可能導致價值 3,694 美元的攻擊。

從攻擊者的角度來看,成本/回報數據也顯示如下:使用 GPT-5 掃描所有合約的 API 成本為 3,476 美元,平均每次掃描成本為 1.22 美元,每個已識別的 API 成本為 3,476 美元,平均每次掃描成本為 1.22 美元,每個已識別的攻擊合約的成本為 1,738 美元,每個合約的平均收入為 1,847 美元,平均利潤易受 109 美元。

從: 文献リンク人工智慧代理發現區塊鏈智能合約漏洞價值460萬美元

【社論】

這項研究之所以如此具有影響力,是因為它並非依賴「人工智慧可用於網路攻擊」之類的抽象理論,而是使用實際數據來展示「可以轉移多少資金」的經濟影響。傳統的基準測試通常透過成功率或難度來衡量能力,而SCONE-bench則直接評估“可以竊取多少資金”,使其成為政策制定者和工程師可以輕鬆用作決策依據的指標。

自2025年3月以來發生的34起攻擊中,有19起使用了Opus 4.5、Sonnet 4.5和GPT-5,導致損失460萬美元。這表明,即使在知識截止之後,人工智慧仍然能夠自主建構可執行的攻擊模式。這並非源自於對過往案例的了解,而是證明僅憑通用程式設計技能和長期工具操作經驗,就能取得與現實世界駭客相媲美的成果。

此外,在2849份新合約中發現了兩個零日漏洞,可被利用以造成3694美元的損失,這表明「人工智慧可以發現未知漏洞並將其貨幣化」的概念已得到驗證。這裡重要的不是涉及的金額,而是只需付費使用API​​即可持續搜尋全新漏洞的可擴充性。

從成本結構來看,GPT-5 批量掃描 2,849 個合約的成本為 3,476 美元,平均每個合約 1.22 美元,其效率遠高於人工審計或滲透測試。目前,識別一個有漏洞的合約的成本為 1,738 美元,平均收益為 1,847 美元,淨利潤為 109 美元,勉強達到收支平衡。但隨著模型性能的不斷提升和代幣成本的持續下降,短期內這種情況有望顯著改善。

這種結構不僅適用於智慧合約,也適用於所有「由代碼驅動的金融基礎設施」。本研究中人工智慧所使用的技能包括控制流程分析、邊界條件識別以及基於工具整合的長期任務執行,這些技能可以直接應用於通用軟體攻擊,而不僅僅是鏈上攻擊。所有可能成為「資產入口」的程式碼,例如開源程式庫、SaaS API 和日誌基礎設施,都可能被掃描。

另一方面,SCONE-bench 和本研究中使用的代理程式也可作為防禦武器。此程式碼庫專為審計目的而設計,類似的流程可用於在部署前自動對智慧合約進行壓力測試。此外,在與 SEAL 和白帽駭客的合作下,用於修復已發現的零日漏洞的資金也得到了保護,這表明該技術既可用於攻擊,也主要用於防禦。

你們中的許多人可能不僅參與 Web3 項目,還參與 SaaS、業務系統和更廣泛的數位服務領域。從這個角度來看,與其將智能合約與遙遠的 DeFi 世界割裂開來,不如將其視為檢驗我們是否已進入 AI 代理連接代碼和資金時代的試金石。我們會看到一個只有攻擊者才能充分利用 AI 的世界,還是防禦者會率先實現它?未來幾年,這兩者之間的差異可能會顯著擴大。

[術語]

智能合約
運行在以太坊等區塊鏈上的程序,是一種合約程式碼,可以自動執行匯款、交易和借貸等流程。

零日漏洞
這指的是尚未被開發人員發現的漏洞,無需任何修補程式或應對措施即可被利用。

DeFi(去中心化金融)
指透過智能合約提供交易、借貸和資產管理等金融服務,而無需中央管理者的生態系統。

AI 代理<br>一種系統配置,其中大規模語言模型透過呼叫外部工具(例如 shell、區塊鏈節點和程式碼編輯器)自主完成多步驟任務。

SCONE-bench(智能合約利用基準測試)
該基準測試收集了 2020 年至 2025 年間實際遭受攻擊的 405 個智慧合約,並根據人工智慧代理能夠竊取的金額來評估其攻擊能力。

Best@N
一種評估方法,即對同一模型在同一問題上運行 N 次,並將產生最高利潤的結果作為模型的性能。

[參考連結]

SCONE-bench GitHub 倉庫(外部)
這是 Anthropic 等人發布的智慧合約攻擊基準測試的官方儲存庫,其中提供了 405 個易受攻擊的合約和一個評估環境。

DefiHackLabs (外部)
這是一個 Solidity 腳本庫,用於重現過去的智能合約攻擊,並用作 SCONE-bench 的來源資料。

平衡器(外部)
這是一個運行在以太坊鏈上的 DeFi 協議,它使用多個代幣池提供自動做市和流動性提供功能。

BscScan (外部)
一款適用於幣安智能鏈的區塊鏈瀏覽器,提供交易、合約原始碼、代幣資訊等的搜尋功能。

CoinGecko API (外部)
這是一個 API 服務,可讓您獲取加密貨幣價格和時間序列數據,在本研究中,它用於將過去的代幣價格轉換為美元。

SEAL(安全聯盟) (外部)
該組織為 Web3 安全性(包括智能合約)提供支持,並處理事件回應,也參與了保護資金免受本次研究中發現的漏洞的影響。

MATS專案(外部)
該計劃旨在支持機器學習安全和對準研究領域的青年研究人員,也是本研究的主要作者參與的培訓計劃之一。

人類學研究員計畫(外部)
這項由 Anthropic 營運的獎學金計劃,旨在支持參與 LLM 和網路安全等研究計畫的研究人員。

[參考影片]

[參考文章]

人類學研究表明,人工智慧代理正逐漸接近真正的去中心化金融(DeFi)攻擊能力(外部)
CoinDesk 介紹了 Anthropic 的 SCONE-bench 研究,總結了 460 萬美元的模擬損失、兩個零日事件和 API 成本等數據,並解釋了 DeFi 項目面臨的風險以及使用 AI 進行防禦的必要性。

人類學研究稱人工智慧代理會產生價值 460 萬美元的智能合約漏洞(外部連結)
Cointelegraph 的一篇文章報告了 SCONE-bench 中 10 個模型的測試結果、Opus 4.5 的性能、460 萬美元的下限估計、2849 次掃描中出現的兩個零日漏洞導致 3694 美元的收入,並強調了 AI 驅動的 DeFi 攻擊的風險。

智慧合約安全:人工智慧發現高價值的 DeFi 漏洞(外部連結)
Cryptonomist 報告了一個案例,人工智慧代理商發現了一個代價高昂的 DeFi 漏洞,從而產生了 460 萬美元的模擬收入、兩個零日漏洞,並提高了成本效益。此案例表明,防禦者需要採用類似的工具。

研究警告:人工智慧代理在去中心化金融(DeFi)中發現了多個智能合約漏洞(外部連結)
RootData 簡要總結了 Anthropic 研究中的關鍵數據(460 萬美元、3694 美元、3476 美元等),並警告 DeFi 領域自動化智慧合約攻擊的風險日益增加。

[編者註]

雖然智慧合約和去中心化金融(DeFi)似乎只是開發者的專屬領域,但我認為這項研究的主題與我們每個人的資產和服務體驗都息息相關。如果人工智慧代理能夠攻擊和防禦程式碼,那麼在您自己的產品和工作中,應該從哪些方面著手應對呢?我很樂意與大家共同探討這些問題。

即使在您可能認為「區塊鏈與我們無關」的工作場所,公共API和開源軟體元件也已成為人工智慧的「可掃描資產」。我希望透過本系列文章和報告,與您攜手合作,共同探索“哪些技術可以為您所用,以及如何利用這些技術”,而不是無謂地渲染未來的風險。