
微軟已報告 Microsoft 365 管理中心的 Microsoft Defender 入口網站 (security.microsoft.com) 存取問題,案例 ID 為「DZ1191468」。
從12月2日星期二清晨開始,多個地區的管理員報告了登入逾時和登入失敗的情況,導致他們暫時無法透過入口網站查看警報和調查事件。微軟將此歸因於流量意外激增,並表示透過流量管理緩解措施,服務可用性已基本恢復。
然而,部分租戶仍持續報告錯誤,我們透過服務運作狀況儀表板持續監控情況。雖然諸如 Defender 防毒軟體之類的自動化端點防禦措施似乎仍在運行,但安全營運中心 (SOC) 暫時無法存取 XDR 儀表板。
從:
微軟正在調查 Defender Portal 訪問問題…
【社論】
乍看之下,微軟Defender Portal的宕機似乎只是“幾個小時的雲端故障”,但實際上,它凸顯了雲端原生安全營運中心(SOC)運維中固有的單點故障(SPOF)問題。雖然這次事件的起因被認為是流量激增而非網路攻擊,但「即便沒有攻擊,僅是失去可見性也會降低響應能力」這一固有風險正在逐漸顯現。
Defender Portal 是 XDR 的核心,它透過整合來自端點、電子郵件、ID 等管道的警報來提供全面的可見性。如果這種可見性暫時喪失,安全營運中心 (SOC) 將難以確定警報的優先順序並掌握事件的整體情況,從而無法採取行動或做出可靠的決策。即使像 Defender Antivirus 這樣的自動化防禦系統在後台持續運行,缺乏人為視角也會為業務帶來風險。
由此可見,關鍵在於“準備備用方案以防儀錶板不可見”,而不是“增加工具數量”。例如,即使雲端部分宕機,也需要事先規劃出一條能夠維持營運的路徑,例如直接從安全資訊和事件管理 (SIEM) 系統或日誌存檔中進行搜尋、使用包括本地部署儀錶板在內的備用儀錶板,以及採用紙本或離線事件回應流程。
此外,這種結構並非微軟獨有的問題;其他廠商的XDR和雲端安全平台也普遍存在這個問題。即使採用多雲或多廠商系統,如果最終將作業集中於單一控制台,一旦該控制台發生故障,就會出現「操作鎖定」的瓶頸。這次事件或許是重新審視這類操作設計本身的好機會。
從監管和審計的角度來看,金融和公共部門等需要高可用性的領域將越來越關注基於雲端的安全營運中心(SOC)的冗餘性和業務連續性計劃(BCP)。與其認為“我們已經遷移到雲端,所以就安全了”,我認為每個組織都需要針對“即使雲端的可視化層出現故障,我們是否還能繼續保持一定水平的監控和響應能力?”這個問題給出自己的答案。
[術語]
Microsoft Defender 入口網站
它是一個入口網站,提供對 Microsoft Defender XDR 等安全功能的整合管理,並且是警報監控、事件調查、端點隔離等的中央儀表板。
Microsoft 365 管理中心
這是一個用於管理 Microsoft 365 使用者、授權和檢查服務狀態的管理控制台,您也可以從這裡查看服務中斷和維護資訊。
服務健康狀況儀錶板
這是 Microsoft 365 管理中心中的螢幕,您可以在這裡查看每個服務的運行狀態和中斷信息,也可以在這裡追蹤像這樣的 Defender Portal 中斷的進度。
XDR(擴展檢測和響應)
該系統整合了來自多個領域(例如端點、電子郵件、ID 和雲端)的威脅訊息,並將從檢測到回應的所有環節集中化,而 Defender Portal 則作為此 XDR 的中心樞紐。
安全營運中心 (SOC)
這指的是負責監控組織內外安全事件並應對事件的專門團隊和組織結構,而對可視化儀表板的存取是日常運作的基礎。
Defender 防毒軟體
這是微軟面向 Windows 終端推出的原創防毒功能,透過惡意軟體偵測、即時保護、雲端保護等方式提供裝置級防禦。
[參考連結]
Microsoft Defender XDR (外部)
一種安全服務,它使用微軟提供的 XDR 平台,實現跨多個領域的威脅偵測和回應的整合管理。
[參考文章]
微軟 Defender 入口網站故障導致威脅搜尋和事件回應中斷(外部)
文章詳細解釋了 Defender 入口網站中斷如何擾亂了警報和事件回應,以及管理員面臨的錯誤和影響範圍。
M365 服務狀態(2025-12-02 02:57 發生 1 次降級) (外部)
大學 IT 部門發布的 Microsoft 365 服務狀態報告顯示了同一時期服務降級事件的時間和影響。
調查 Microsoft Defender XDR(外部)中的警報
它描述了在 Defender XDR 入口網站中調查警報的標準流程,並解釋了該入口網站如何作為事件回應的中心點。
2025 年 Microsoft Defender 最佳化與設定速查表(外部連結)
這篇技術部落格總結了 Microsoft Defender 的配置和最佳化方法,並提供了在大規模環境中運作和調優的視角。
[編者註]
在事件回應領域,如何在無法連接工具的情況下利用時間,實際上是一個非常現實的問題。與其只是在新聞中觀看這類故障,不如試著設想一下,如果同樣的事情發生在你自己的環境中,你會怎麼做。
不只是微軟 Defender Portal,任何安全工具,如果其設計僅基於「絕不失效」的假設,那麼在緊急情況下你的選擇將會非常有限。與其追求完美,我更希望我們能夠共同考慮運行的餘地,確保「即使出現故障,也不會造成致命後果」。