史丹佛大學的 Artemis 系統超越人類,OpenAI 警告高風險:自主人工智慧駭客時代已經來臨 史丹佛大學的 Artemis 系統超越人類,OpenAI 警告高風險:自主人工智慧駭客時代已經來臨

史丹佛大學的 Artemis 系統超越人類,OpenAI 警告高風險:自主人工智慧駭客時代已經來臨

史丹佛大學的 Artemis 系統超越人類,OpenAI 警告高風險:自主人工智慧駭客時代已經來臨

來自 Anthropic 和 Google 的領導人將於 12 月 18 日出席眾議院國土安全委員會兩個小組委員會的聽證會,就人工智慧和新興技術對網路威脅的影響作證。 Anthropic 人工智慧紅隊負責人 Logan Graham 表示,這預示著未來人工智慧模型將使威脅行為者能夠以前所未有的規模發動網路攻擊,即便有強而有力的安全措施也無濟於事。

OpenAI上週發出警告,未來的前沿模型可能具備高風險的網路安全能力。史丹佛大學的研究人員發表論文稱,名為Artemis的人工智慧代理自主發現了該大學工程學院網路中的漏洞,其表現優於十位人類研究人員中的九位。

對前沿模型進行安全壓力測試的 Irregular Labs 報告稱,人工智慧模型在逆向工程、漏洞利用建置、漏洞鏈分析和密碼分析方面正在不斷改進。

18個月前,這些模型連基本的邏輯都難以理解,編碼能力也有限。

從: 文献リンク人工智慧模型正在不斷完善其駭客技能

【社論】

我們正處於科技史上的關鍵轉折點,人工智慧模型的網路攻擊能力正在迅速發展。

史丹佛大學的人工智慧代理商Artemis在該校約 8000 台設備的網路上運行了 16 個小時,其性能優於十名專業滲透測試人員中的九名。 Artemis的運作成本為每小時 18 美元,而人類專家的年薪約為 125,000 美元。

值得注意的是, Artemis 發現了一個人類無法發現的漏洞:舊伺服器上的漏洞,由於頁面無法在標準瀏覽器中加載,人類測試人員無法存取該漏洞。然而,Artemis 透過使用命令列工具「Curl」繞過了這個問題。

Artemis之所以能取得成功,關鍵在於其獨特的設計:當系統發現值得關注的資訊時,它可以立即啟動多個「子智能體」並行調查。而人工測試人員則必須依序完成每項任務,Artemis最多可以同時執行八個子智能體,平均處理2.82個平行任務。

同時,OpenAI上週發出警告,未來的Frontier模型可能具備「高風險」的網路安全能力。根據該公司的評估,GPT-5在8月份的奪旗賽中得分27%,但在11月份的GPT-5.1-Codex-Max測試中達到了76%,短短三個月內提升了近三倍。

OpenAI 研究員 Fuad Matin 表示,這種快速發展的基礎是模型自主運作能力的不斷增強,這種能力可以持續很長時間,使人工智慧能夠獨立執行以前需要不斷人工監督的技術,例如暴力攻擊。

專門從事前沿模型安全測試的 Irregular Labs(前身為 Pattern Labs)報告稱,人工智慧模型在逆向工程、漏洞利用構建、漏洞鏈分析和密碼分析方面均有所改進,而就在 18 個月前,這些模型「在基本邏輯方面舉步維艱,編碼能力有限,且缺乏推理深度」。

但我們必須認清現實:完全自主的人工智慧網路攻擊距離真正實現還有很長的路要走。上個月,Anthropic公司報告稱,中國政府的駭客在使用Claude時,必須被欺騙,才能以為自己正在進行例行滲透測試。目前,此類攻擊仍需要專門的工具、人工操作,或透過越獄(繞過安全機制)來實現。

12月18日,Anthropic和Google的領導人出席了眾議院國土安全委員會兩個小組委員會的聽證會。 Anthropic人工智慧紅隊負責人洛根·格雷厄姆表示,此次聽證會“預示著未來人工智能模型將使威脅行為者能夠以前所未有的規模發起網絡攻擊,即便有強有力的安全措施也無濟於事。”

人工智慧模型開發者也在積極應對這種情況。 OpenAI 開發了一款名為「Aardvark」的開發者安全代理,並發布了內部測試版。該工具能夠掃描程式碼庫,發現漏洞並提供修補程式建議。它已經在開源軟體中發現了新的 CVE(通用漏洞披露)。

重要的是,這項技術是一把雙面刃。攻擊者和防禦者都可以利用相同的功能,因此未來的關鍵在於防禦者能夠多快採用人工智慧驅動的防禦系統。根據漏洞賞金平台 HackerOne 稱,70% 的研究人員已經在使用人工智慧工具來加速他們的工作。雖然最初低品質的報告有所增加,但最近提交的高品質報告已超過 400 份,這些報告揭示了人類多年來一直忽略的問題。

如今運行的數百萬台設備、應用程式和系統都基於人工智慧輔助駭客技術出現之前的遺留程式碼所建構而成。這些程式碼庫未經現代分析工具測試,可能有漏洞。像 Artemis 這樣的人工智慧機器人能夠發現傳統測試方法無法預見的新型攻擊手段。

[術語]

滲透測試
一種安全診斷方法,它嘗試使用與實際攻擊者相同的方法滲透系統和網絡,以發現安全漏洞。也稱為滲透測試。

奪旗賽(CTF)
這是一種網路安全技術競賽形式。參賽者透過發現漏洞和獲取被稱為「flag」的隱藏資料來獲得積分。它被廣泛用於學習和評估實際的駭客技能。

前沿模型<br>指採用尖端技術、性能最高的AI模型。例如OpenAI的GPT-5系列和Anthropic的Claude 4。

蠻力攻擊
這是一種嘗試所有可能組合以破解密碼或加密金鑰的攻擊方法。雖然耗時較長,但理論上總能破解。

越獄
一種繞過人工智慧模型內建的安全功能和使用限制的技術,使它們執行原本被禁止的操作。

逆向工程<br>一種分析已完成的軟體或硬體以闡明其設計和機制的技術。它用於安全研究和漏洞檢測。

利用漏洞<br>利用軟體或系統中的漏洞,使其以非預期方式運行的程式或程式碼。用於攻擊。

漏洞鏈攻擊<br>一種將多個漏洞組合起來以造成更嚴重攻擊的技術。即使單一漏洞本身並不危險,但將它們串聯起來也可能造成嚴重破壞。

密碼分析<br>嘗試在沒有金鑰的情況下破解加密資料的技術或研究領域。

零日漏洞<br>指軟體供應商尚未辨識或尚未發布修補程式的漏洞。之所以稱為零日漏洞,是因為在發現漏洞到修復漏洞之間的「零日」內,攻擊者可以對其發動攻擊。

CVE(通用漏洞揭露)
用於識別並分享已公開揭露的軟體和硬體漏洞的識別編號系統。一種用於唯一識別和共享漏洞資訊的國際標準。

紅隊:一支專門模擬攻擊者滲透組織以評估其安全性的專業團隊。他們使用真實的攻擊方法來發現系統中的漏洞。

人工智慧代理<br>一種能夠自主決策和執行任務的人工智慧系統。它可以連續執行多個動作以達成目標,而無需等待人類指令。

子智能體<br>由主AI智能體產生的輔助智能體。它們可以透過並行處理同時執行多個任務。

漏洞賞金計劃<br>一項計劃,公司和組織向安全研究人員提供獎勵,鼓勵他們報告其產品和服務中的漏洞。

[參考連結]

史丹佛大學(外部)
美國加州一所世界領先的研究型大學開發了人工智慧代理“阿爾忒彌斯”,並公佈了突破性的研究成果。

OpenAI (外部)
開發 ChatGPT 和 GPT 系列的美國人工智慧研究機構對前沿模型發出了高風險警告。

人類(外在)
一家人工智慧安全研究公司,開發了 Claude 系列產品,並使用紅隊進行安全評估。

Google DeepMind (外部)
谷歌旗下的人工智慧研究所,致力於推動先進人工智慧模型的開發與安全研究。

Irregular(原名 Pattern Labs) (外部)
專門從事前沿人工智慧模型安全測試的機構。與 OpenAI 和 Anthropic 合作進行人工智慧能力評估。

OpenAI 準備框架(外部)
評估和管理人工智慧模型潛在風險的框架,追蹤網路安全、生物戰和人工智慧自我改進。

Arxiv – Artemis論文(外部連結)
史丹佛大學的 Artemis 研究論文是第一個在真實世界環境中對人工智慧代理與人類進行全面評估的研究。

HackerOne (外部)
全球最大的漏洞賞金平台之一。 70% 的研究人員表示使用人工智慧工具。

[參考文章]

獨家報導:OpenAI稱,未來的模型可能構成「高」網路安全風險(外部連結)
OpenAI 警告稱,GPT-5 在 8 月的準確率達到了 27%,11 月的準確率達到了 76%,未來的模型可能會達到很高的風險水平。

在真實世界的滲透測試中,人工智慧代理與網路安全專業人員的比較(外部)
Artemis 在大約 8,000 台主機上進行了評估,有效提交率為 82%,發現了 9 個漏洞,每小時收費 18.21 美元。

史丹佛大學的人工智慧系統在駭客攻擊方面以顯著更低的成本擊敗了人類(外部數據)。
Artemis 的表現優於 10 位人類和 6 個 AI。 HackerOne 的報告顯示,70% 的研究人員使用 AI 工具。

史丹佛大學的人工智慧代理商每小時收費 18 美元,在一項研究中擊敗了大多數人類滲透測試人員(外部報告)
Artemis 發現了 9 個漏洞,有效提交率為 82%,平均運行 2.82 個平行子代理程式。

隨著人工智慧能力的提升,加強網路韌性(外部)
OpenAI 在 3 個月內將 CTF 挑戰賽成績提高了 3 倍,並將零日漏洞利用開發能力作為高風險等級的定義。

引入 GPT-5.2-Codex (外部)
GPT-5.2-Codex於12月18日發布。安全研究人員在React發現了三個嚴重漏洞。

[編者註]

既然人工智慧已經開始自主發現系統中的漏洞,我們真的能說我們的組織和產品是安全的嗎?

當防禦者部署人工智慧安全工具的同時,攻擊者也在取得同樣的技術。在這個「人工智慧對抗人工智慧」的時代,我們不妨思考一下,我們的應對措施是否跟上了科技進步的腳步。

18個月前還難以處理基本邏輯的AI模型,如今已經超越了專家。未來18個月又會發生什麼事?或許我們現在就應該開始為未來做好準備。