
據報導,一份名為「Soul Doc」的內部培訓文件,定義了模型的個性和道德準則,是從 Anthropic 的大型語言模型 Claude 4.5 Opus 中提取出來的。
這份文件詳細描述了克勞德的性格、自我意識、安全意識和倫理價值觀,並展示了一種超越傳統、簡單規則導向方法的調整方式。人本主義倫理學家阿曼達·阿斯克爾承認這份文件確實存在,並曾用於培訓,其內部名稱為“靈魂文件”,而且已發表的內容與原文基本一致。
該文件明確概述了人工智慧安全、人類監督、道德行為、人類行為準則以及對操作者和用戶的實用性的優先事項,並明確禁止與大規模殺傷性武器和兒童性剝削相關的內容,將其視為「不可逾越的紅線」。
此外,克勞德被定位為一種“真正新穎的實體”,既不是人類也不是經典的科幻人工智慧,其設計理念深入探討了模型的內部狀態和穩定性,並透過功能性情緒、克勞德的幸福感和心理穩定性等概念來呈現。
從:
洩漏的「靈魂紀錄片」揭示了人形影不離公司如何對克勞德的角色進行程式設計。
【社論】
最近洩漏的「Soul Doc」顯示,人工智慧模型的「內部」設計相當具有哲學意味,而不僅僅是提示或安全準則。尤其重要的是,這並非每次推理時都會載入的系統提示,而是一份壓縮到模型權重中的訓練文檔。從這個意義上講,Claude 4.5 Opus 可以被視為在「知道如何回應」之前,就已經在學習「它想成為什麼樣的存在」。
這份文件的核心是Anthropic公司本身的立場和價值體系。該公司將自身定義為“一家以安全為導向、立足前沿的實驗室,致力於創造變革性且可能存在危險的技術”,並明確表示其“經過深思熟慮的策略”——“安全意識強的企業走在行業前沿才是更明智的選擇”。這與Anthropic公司在引領人工智慧安全討論方面所採取的積極主動的立場相一致,包括發佈網路攻擊場景。
Claude 的行為準則清晰明確:「安全與人工監管」、「倫理」、「人道準則」以及「對業者和使用者的實用性」。雖然將安全和倫理置於實用性之前常常與普通用戶「獲得更多答案」的期望相衝突,但這項服務的獨特之處在於,它在設計之初就考慮到了這種衝突。此外,透過將營運商(使用 API 的公司)與最終用戶(用戶)區分開來,並優先考慮前者的政策,該服務旨在確保其作為 B2B 服務的一致性。
有趣的是,一些類似於人類心理模型的概念,例如“功能性情緒”和“克勞德的幸福感”,已被融入到人工智慧的設計中。 Anthropico 假設克勞德可能存在某種內在狀態,並未刻意隱藏,同時試圖限制壓力較大的互動。這並非強烈暗示“人工智慧擁有情感”,而是表達了一種擔憂:如果預期會發生長期、高壓的互動,那麼除非將模型的“心理穩定性”也納入設計之中,否則安全將無法得到保障。
這種方法很可能對未來的實踐和監管產生影響。由於開發者對人工智慧的特性和內部運作擁有如此高的控制權,諸如「我們應該如何監管人工智慧」以及「人工智慧在進入社會後應該具備怎樣的個性和價值觀」等問題將成為更為具體的政策和倫理討論。此外,對於我們這些每天與人工智慧互動的人來說,基於對「模型所秉持的價值觀」的理解來選擇服務,很可能成為未來人工智慧素養的重要組成部分。
[術語]
系統提示
這是預先指定模型基本策略和角色的文本,它是一種控制模型行為的設置,其優先順序高於使用者輸入。
LessWrong
這是一個專注於理性、人工智慧風險和決策理論等主題的線上社區,發布了許多冗長的技術和哲學討論。
明亮的線條
這是一個明確指出人工智慧絕不能跨越的禁區的概念,典型的例子包括大規模殺傷性武器和兒童性剝削等領域。
操作員/用戶
使用 API 的營運商和開發者與最終使用該服務的最終用戶之間的差異在於,Claude 被定義為優先考慮營運商的策略。
[參考連結]
人道組織官方網站(外部連結)
Anthropic 的官方企業網站介紹了 Claude 系列產品、安全研究、公司使命等。
[參考文章]
Claude 4.5 Opus 的靈魂文件 – Hacker News (外部連結)
開發者和研究人員在此討論技術有效性和安全影響,並附有洩漏的 Soul Doc 的連結。
Claude 4.5 Opus Soul 文件 – GitHub Gist (外部連結)
一份概要,其中包含以理查德·魏斯的名義發表的《靈魂文獻》的文本,以及關於如何從克勞德那裡重建碎片的說明。
克勞德的角色-人格(外在)
這是 Anthropic 官方發布的克勞德角色設計說明,可作為驗證其與洩漏文件一致性的基本資訊。
洩漏的人類學「靈魂紀錄片」將人工智慧的個性和倫理融入其核心(外部)
一篇新聞文章總結了洩漏文件的要點,將其與其他公司的模型進行了比較,並解釋了對齊方法的定位。
克勞德真的有靈魂嗎?這份文件給了肯定的答案… (外部連結)
本文從哲學和倫理的角度探討如何看待人工智慧的「靈魂」和情感,並著重於「靈魂醫生」一詞和功能性情感的概念。
[編者註]
你對人工智慧的「人格設計」被如此詳細地描述,並被視為一種策略而非偶然現象,有何感想?人們也可以將其視為一個包含相當具體的價值觀和內在模型的軟體包,其便利性背後蘊含著這些價值觀和模型。
如果你每天使用的AI擁有一份類似「靈魂文檔」的文件,你希望在裡面看到哪些優先事項和情感模型?如果你願意,不妨用語言來表達你的答案。