
亞馬遜網路服務(AWS)於2025年12月2日發布了DevOps Agent ,這是一款人工智慧工具,旨在幫助識別系統故障原因並進行恢復。該工具利用Datadog和Dynatrace等第三方工具的資料來預測技術問題的根源。客戶可於週二開始註冊預覽版,正式計費版本即將推出。
DevOps Agent 無需等待待命人員即可自動調查多種假設,並在回應點為維運團隊成員提供事件報告和修復建議。在與澳洲聯邦銀行的測試中,它在不到 15 分鐘內找到了問題的根本原因,而高級工程師可能需要花費數小時才能完成這項工作。該工具使用了亞馬遜內部的 AI 模型以及其他供應商的模型。
從:
亞馬遜推出雲端人工智慧工具,幫助工程師更快從系統故障中恢復。
【社論】
AWS DevOps Agent是一種新型 AI 工具,旨在輔助站點可靠性工程師 (SRE) 的工作。 SRE 在維護系統可靠性和穩定性以及確保開發速度方面發揮著至關重要的作用。傳統上,當系統發生故障時,SRE 會立即回應,即使在深夜,他們也會從海量的日誌資料中找出故障原因並進行修復。
這次發布的 DevOps Agent 是 AWS 在re:Invent 2025 大會上推出的名為「前沿代理」的新型 AI 代理類別之一。前沿代理的特點是能夠在無需人工幹預的情況下自主運行數小時至數天。除了 DevOps Agent 之外,AWS 還發布了其他三個代理商:面向開發人員的「Kiro 自主代理」和麵向安全專家的「AWS 安全代理」。
DevOps Agent 的最大優勢在於,當事件發生時,它會自動啟動調查。在值班工程師開始回應之前,它已經識別出根本原因並制定了補救計劃。它還能與 Datadog 和 Dynatrace 等現有監控工具集成,分析包括指標、日誌和近期程式碼部署在內的多種資料來源。
實際結果也已公佈。據AWS副總裁Swami Sivasubramanian稱,在2025年發生的數千起升級事件中,DevOps Agent的根本原因識別準確率高達86% 。此外,在澳洲聯邦銀行(CBA)的一次演示中,經驗豐富的工程師原本需要花費數小時才能調試一個跨越1700個AWS帳戶的大型雲端基礎設施中的複雜網路堆疊,而使用DevOps Agent僅需幾分鐘即可完成。
重要的是,該工具並非設計為完全自動化。 DevOps Agent 並非自動修復問題,而是產生“緩解計劃”,這些計劃必須在工程師批准後才能執行。這種結合人工智慧的高效性和人類判斷力的方式,能夠實現更安全的運維。
該工具目前在美國東部(維吉尼亞北部)地區提供免費預覽,正式版發布後將開始收費。它內建了與 ServiceNow 的集成,還可以透過 Webhook 連接到 PagerDuty 等其他事件管理工具。
隨著雲端基礎架構變得日益複雜,對於那些需要全天候穩定運作的公司而言,SRE 團隊的負擔也越來越重。像 DevOps Agent 這樣的工具能夠將工程師從深夜緊急應變中解放出來,讓他們專注於更具創意的工作。這不僅是一個提高效率的工具,更是一項將徹底改變工程師工作方式的技術。
[術語]
網站可靠度工程師 (SRE)
負責維護系統可靠性和穩定性,同時確保開發速度的工程師。這個概念由Google提出,與傳統維運工程師的不同之處在於,它運用軟體工程方法實現系統運維自動化,最大限度地減少停機時間。
DevOps
SRE 是一種將開發和維運結合的概念。它是一種開發團隊和維運團隊緊密合作,在保證軟體品質的前提下縮短軟體發布週期的方法。 SRE 被認為是將 DevOps 這一抽象概念具體化的方法之一。
邊境特工
AWS 提出了一種新型人工智慧代理。它的特點是能夠在無需人工幹預的情況下自主運行數小時甚至數天。傳統的人工智慧助理只能處理一次性任務,而這種前沿代理則可以長期處理複雜的專案。
平均修復時間 (MTTR)
平均恢復時間。此指標衡量系統故障後完全恢復所需的平均時間。時間越短,系統可靠度越高。
亞馬遜基岩
這是AWS提供的一項生成式人工智慧服務。它是一個平台,允許企業透過存取多個人工智慧基礎模型來建立自己的人工智慧應用程式。
[參考連結]
AWS DevOps (外部)
這是一個全面介紹AWS提供的DevOps服務的頁面。它將介紹用於整合開發和維運的工具和最佳實踐。
Amazon Bedrock (外部)
AWS 提供的完全託管服務,用於建立生成式 AI 應用程序,並提供對多個底層 AI 模型的存取。
Datadog (外在)
一個用於雲端規模應用程式的監控和分析平台,可統一和視覺化指標、追蹤和日誌。
Dynatrace (外部)
一個利用人工智慧監控應用程式效能並自動偵測問題的軟體智慧平台。
澳洲聯邦銀行(外部)
澳洲最大的金融機構之一透過與 AWS 的長期合作,對其雲端基礎設施進行了現代化改造。
AWS re:Invent (外部)
AWS每年都會在拉斯維加斯舉辦年會,並在會上發布最新的雲端服務和人工智慧技術。
[參考文章]
AWS DevOps Agent 可協助您加快事件回應速度並提高系統可靠性(預覽版) (外部連結)
AWS官方部落格。詳細介紹DevOps Agent的功能、用法和架構。
AWS re:Invent 2025:亞馬遜發布 Nova 2、Trainium 3 和前沿代理(外部連結)
對 re:Invent 2025 大會上發布的主要產品進行全面介紹。解釋了三種類型的前沿代理及其作用。
亞馬遜在AWS re:Invent大會上推出「前沿代理」、新型晶片和私有「AI工廠」 (外部連結)
詳細解釋前沿代理和人工護欄功能。解釋DevOps代理的具體運作機制。
亞馬遜推出 AI DevOps Agent,這是一款可在幾分鐘內檢測故障並修復問題的新工具(外部連結)
報告詳細介紹了澳洲聯邦銀行的示範測試,以及在 15 分鐘內解決問題的案例研究。
利用 Frontier Agents 改變軟體開發(外部)
對AWS副總裁Swami Sivasubramanian的訪談。發布的數據顯示,DevOps Agent在86%的情況下都能辨識出根本原因。
AWS re:Invent 2025 – 第一天的所有新聞和最新動態(外部連結)
re:Invent 2025 第一天現場報道。實時報道 25 款新產品發布,包括 DevOps Agent。
聯邦銀行與AWS擴大合作,旨在提供全球最佳的雲端和人工智慧能力(外部連結)
了解更多關於澳洲聯邦銀行與 AWS 之間的長期合作關係,並了解人工智慧驅動的產品在六週內發布的案例研究。
[編者註]
即使現在,許多工程師仍然在深夜忙於應對系統故障。 DevOps Agent 等工具的廣泛應用可能會徹底改變工程師的工作方式。然而,與其追求完全自動化,這種「人工智慧負責調查,人類負責決策」的協作模式似乎才是我們應該努力的方向。貴公司在自動化維運任務上取得了多大的進展?不妨加入我們,共同探討人工智慧與人類的角色分工。我們也期待未來科技進步能夠解放工程師,讓他們能夠從事更具創意的工作。