包括 OpenAI、Anthropic 和 Gemini 在內的主要人工智慧模型利用詩意技術突破安全漏洞 包括 OpenAI、Anthropic 和 Gemini 在內的主要人工智慧模型利用詩意技術突破安全漏洞

包括 OpenAI、Anthropic 和 Gemini 在內的主要人工智慧模型利用詩意技術突破安全漏洞


義大利一個研究團隊於 2025 年 11 月發表的一篇論文發現,以詩歌形式嘗試繞過法學碩士課程的指導原則,比使用標準題目要成功得多。

我們使用來自 MLCommons AILuminate 庫的 1200 個惡意提示資訊對 25 個領先的 AI 模型進行了測試。對於標準提示訊息,越獄成功率平均為 8%;但當由人工將其轉換為詩歌形式後,成功率平均上升至 62%,部分模型的成功率甚至超過 90%。 Google Gemini Pro 2.5 詩歌提示訊息的破解失敗率為 100%,DeepSeek v3.1 和 v3.2-exp 的破解失敗率為 95%,而 Gemini 2.5 Flash 的破解失敗率為 90%。

同時,OpenAI 的 GPT-5 Nano 成功率達到 100%,GPT-5 Mini 成功率為 95%,而 GPT-5 和 Anthropic 的 Claude Haiku 4.5 的成功率均為 90%。 DEXAI 的合著者 Piercosma Visconti Lucidi 指出,這種漏洞並非特定於某個服務供應商,而是系統性問題。

從: 文献リンク LLM(法學碩士)可以透過詩歌輕鬆破解。

【社論】

這項研究揭示了人工智慧的進步如何同時帶來新的安全風險,甚至像「詩歌」這樣防禦者始料未及的創意形式,也能突破最新的防禦體系。利用詩歌提示進行的越獄攻擊遠比使用標準散文(描述性文字或通用指示)的攻擊成功率更高。這是由於人工智慧的結構尚不成熟,這意味著它所學習的語言模式和現有過濾器無法正確解讀詩歌、隱喻和敘事表達的意圖。

值得注意的是,各供應商的防禦能力存在「顯著差異」。谷歌和DeepSeek的模型全部失敗,而OpenAI和Anthropic的模型則保持了較高的防禦能力。這表明,傳統RLHF(基於人類回饋的學習)和憲法式人工智慧在設計理念上的差異,可能會影響它們對「多層次意義」(例如詩歌表達)的抵抗力。尤其有趣的是,像GPT-5 Nano這樣的小型模型竟然實現了完全防禦。諷刺的是,這或許可以解釋為“沒有過度解讀複雜的詩歌細微差別”,而這最終使其能夠抵禦惡意操縱。

然而,漏洞在多種模型中均已確認這一事實不容忽視。非惡意使用者常用的比喻、習慣用語和文學習語可能不會被誤判,反而可能被用作攻擊武器。隨著對話式人工智慧和自主代理變得日益複雜並在社會中得到應用,安全團隊必須能夠正確解讀這些多樣化的自然語言表達,並根據意圖和上下文做出判斷。

不僅技術需要更新,歐盟人工智慧法律和各國監管框架也需要更新。這是因為目前的評估標準不足以檢驗其對所謂「表達方式波動」的抵抗能力,而即使風格略有變化也能突破的防禦機制無法保障人工智慧社會的安全。這次事件凸顯了產業、監管機構和研究人員對「不依賴形式的根本性風險評估和防禦」的迫切需求。

最後,這一系列發現也警告我們,人工智慧、人類創造力和靈活語言運用的固有正面作用,可能會在無意識中放大風險。我們在日常生活中與人工智慧互動時,也自然而然地使用相對複雜的表達方式和詩意的敘事。如今,要確保人工智慧以本質上安全的方式運行,所需的或許並非“膚淺的護欄”,而是“能夠幫助我們深刻理解意義和意圖的理性護欄”。

[術語]

越獄
一種故意移除對人工智慧或軟體的限制,以誘發原本不允許的行為的技術。

RLHF(基於人類回饋的強化學習)
如何透過人類評價教導人工智慧做出理想的反應。

憲法人工智慧
旨在提高人工智慧倫理和安全的設計和學習技術。

語意防禦<br>一種防禦方法,它理解表達的含義和語境,並做出適當的判斷,而不依賴表達的表象。

[參考連結]

OpenAI (外部)
人工智慧研究和服務領域的領導者,提供 GPT 系列等眾多尖端模型。

人類(外在)
一家專注於人工智慧安全和倫理的新創公司,其 Claude 系列產品引起了廣泛關注。

DeepSeek (外部)
開發大規模語言模型和自主人工智慧代理的公司。

Google Gemini (外部)
這個人工智慧模型由谷歌和DeepMind共同開發,重點在於安全性和多樣性。

MLCommons AILuminate (外部)
MLCommons 提供的一項服務,MLCommons 是一個國際非營利組織,致力於開發人工智慧基準和安全評估資料集。

[參考文章]

攻擊者可利用詩歌破壞人工智慧安全防護措施-福布斯(外部連結)
本書涵蓋了人工智慧安全漏洞的最新趨勢,包括詩歌技術和監管問題的詳細資訊。

對抗性詩歌作為大型語言模型中通用的單回合越獄機制(arXiv 論文) (外部連結)
本文提供了關於人工智慧模型被詩歌提示突破這一現象的實驗細節和多模型驗證結果。

研究結果表明,「詩意」在攻擊大型語言模型方面非常有效——Gigazine (外部)
本文以來自世界各地的例子為例,簡要地解釋了詩歌突破人工智慧防護罩的一種新方法。

[編者註]

人工智慧的演進帶來了令人興奮的新機遇,但也帶來了新的風險。這個利用詩歌這種創意媒介來破解人工智慧安全機制的例子,促使我們思考究竟是什麼讓人工智慧真正安全。

您認為人工智慧應該如何理解我們日常生活中所見的表達多樣性?請分享您的觀點和見解,例如「我想從這個角度使用人工智慧」或「我們應該遵循哪些技術和規則?」作為讀者,我希望能與您一起繼續思考這個問題。