法學碩士無法理解文字遊戲:卡迪夫大學研究顯示人工智慧在理解幽默方面有其局限性 法學碩士無法理解文字遊戲:卡迪夫大學研究顯示人工智慧在理解幽默方面有其局限性

法學碩士無法理解文字遊戲:卡迪夫大學研究顯示人工智慧在理解幽默方面有其局限性


卡迪夫大學和卡福斯卡里大學的研究團隊發表了一項關於大規模語言模型(LLM)理解文字遊戲能力的研究成果。研究表明,雖然LLM可以識別文字遊戲的結構,但它們實際上並不能理解笑話的本質

在測試中,即使在句子“我曾經是個喜劇演員,但我的生活變成了一個笑話”中將“joke”替換為“chaotic”,LLM 仍然能夠識別出文字遊戲。同樣,即使在句子“冗長的童話故事往往像龍一樣”中將“dragon”替換為同義詞“prolong”或隨機詞,LLM 仍然能夠識別出文字遊戲。據卡迪夫大學的 José Camacho Collados 教授稱,當面對不熟悉的文字遊戲時,LLM 區分文字遊戲和非文字遊戲的成功率可能會下降到 20%。

這項研究成果於 2025 年 11 月在中國蘇州舉行的 2025 年自然語言處理實證方法會議上發表,並在論文《無意的雙關語:LLM 與幽默理解的錯覺》中進行了總結。

從: 文献リンク研究發現,人工智慧無法理解雙關語,它根本不懂笑話。

【社論】

這項研究為人工智慧能否像人類一樣理解幽默這一問題提供了一個引人入勝的答案。研究透過看似簡單的語言現象——文字遊戲(雙關語),揭示了當前大規模語言模型(LLM)的根本限制。

卡迪夫大學和卡福斯卡里大學的研究團隊對七種最先進的語言學習模型(LLM)進行了全面的實驗,其中包括 GPT-4o、Llama3.3-70B 和 DeepSeek-R1。除了現有的基準資料集外,研究團隊還開發了兩個新的資料集 PunnyPattern 和 PunBreak,以測試這些模型的真實理解能力。

結果比預期更為嚴重。 LLM在現有的 PunEval 基準測試中平均準確率達到 80-90%,但在新資料集上,PunnyPattern 的 F1 分數平均下降了 4-12%,而 PunBreak 上修改後的單字遊戲的準確率則顯著下降至 20-60% 左右。尤其值得注意的是,即使單字遊戲中的關鍵字發生微小的變化,也會使 LLM 出現錯誤。

例如,即使我們將雙關語“我曾經是個喜劇演員,但我的生活變成了一個笑話”中的“笑話”替換成“混亂”,LLM 仍然判定其中存在文字遊戲。這表明 LLM 可以識別文字遊戲的形式,但並不真正理解其含義。

研究將語言學習者(LLM)的主要錯誤分為四類。最常見的是「缺乏語境」錯誤,即雙關語的意思其實並不存在。第二常見的是「字詞配對」錯誤,即語音和拼字上不同的字詞被解讀為文字遊戲。

這個問題根源在於LLM分詞和訓練資料的限制。文字遊戲很大程度上依賴語音相似性,但目前的LLM處理詞元的方式無法很好地捕捉語音特徵。此外,同理心、文化背景、時機和個人經驗是人類幽默的重要組成部分,而這些正是LLM難以從訓練資料中學習的領域。

有趣的是,GPT-4o 將“Old LLMs never die, they just lost their ukulele”(老LLM永遠不會死,他們只是丟了尤克里裡)識別為雙關語,因為“ukulele”(尤克里裡)聽起來像“you-kill-LLM”(你殺了LLM)。這體現了一種創造力,但也證明LLMs並不理解原笑話的真正意義。

根據論文,研究人員對三個主要模型(GPT-4o、Llama3.3 和 DeepSeek-R1)的 240 個樣本進行了詳細的誤差分析。 GPT-4o 記錄了 128 個錯誤,Llama3.3 記錄了 111 個錯誤,DeepSeek-R1 記錄了 87 個錯誤。 DeepSeek-R1 的準確率最高,平均每個樣本的錯誤數為 1.2 個。

這項研究表明,真正理解幽默需要比單純的模式識別更深刻的理解。理解文字遊戲和笑話需要文化背景、社會脈絡以及對人類情感的同理心。目前的法學碩士(LLM)缺乏整合處理這些要素的能力。

未來的改進需要更精細的人工協調、更深入地學習文化背景以及改進語音特徵建模。此外,也有人指出,LLM 的安全限制(「無害、有益、誠實」)有時會削弱幽默的意外性和尖銳性。

這項研究對人工智慧研究具有重要意義。理解幽默不僅僅是一項語言處理任務,它更是一項深入探究人類智慧本質的挑戰。看似微不足道的文字遊戲現象,實際上揭示了人工智慧與人類智慧之間巨大的鴻溝。

[術語]

大規模語言模型(LLM)
利用海量文字資料訓練的深度學習模型可用於理解和產生自然語言。代表性模型包括 GPT-4o、Llama 和 Gemini。

文字遊戲(雙關語)
一種利用歧義和語音相似性的幽默表達技巧。主要分為兩大類:異形雙關和同形異義詞。

PunEval
該資料集是 SemEval-2017 資料集的改編版,包含 2,589 個文字遊戲和非文字遊戲句子,被用作文字遊戲研究的標準基準。

雙關語模式
這個新開發的資料集包含 1200 個樣本,其中包含英語文字遊戲中常見的語言模式,並評估 LLM 是否依賴表面線索。

PunBreak
本研究開發的另一個資料集測試了 LLM 在 1100 個樣本上的穩健性,其中原始單字遊戲中的關鍵字被同義詞或隨機單字取代。

思維鏈(CoT)提示
鼓勵法學碩士使用逐步推理過程(例如“一步一步思考”)來獲得更合乎邏輯的回答的方法。

分詞<br>將文字分割成小單元(詞元)的過程。由於語言語言模型(LLM)以詞元為單位處理語言,因此它難以捕捉語音特徵。

[參考連結]

arXiv – 無意之舉:法學碩士與幽默理解的錯覺(外在連結)
研究的完整論文提供了 LLM 文字遊戲理解能力的詳細實驗結果和分析。

ACL 文集 – EMNLP 2025 會議論文集(外部連結)
這是在 2025 年自然語言處理實證方法會議上發表的這項研究的官方頁面。

卡迪夫大學 – 電腦科學與資訊學院(外部)
這是卡迪夫大學計算機科學系的官方網站,該系主導了這項研究。

DeepSeek-R1 – 擁抱臉(外部)
這是本研究中評估的 DeepSeek-R1 模型的官方頁面,提供了有關 LLM 的詳細信息,該 LLM 專門用於推理能力。

OpenAI GPT-4o 系統卡(外置)
GPT-4o 的技術規格和功能官方文檔,該機器在研究中表現出最佳性能。

[參考影片]

未找到官方或可靠的影片。

[參考文章]

無意之舉:法學碩士與幽默理解的錯覺(外部連結)
本文使用兩個新的基準測試 PunnyPattern 和 PunBreak 對包括 GPT-4o 在內的七個 LLM 進行了評估。

文字並非萬能:多模態提示幫助法學碩士理解幽默(外部連結)
一項研究表明,結合文字和音訊訊息的多模態提示可以提高LLM學生對幽默的理解能力。

評估法學碩士在幽默方面的能力(外部)
對 LLM 學生的幽默產生和評價能力進行了多維度分析,結果顯示缺乏同理心是一個特別的問題。

機器人走進酒吧(外)
一項關於喜劇演員與法學碩士合作的研究,強調了法學碩士缺乏對語境的理解。

好的雙關語本身就是一個轉折詞(外在)
本研究系統性地評估了 LLM 在三項任務中的表現:辨識、解釋和產生文字遊戲。

最後的笑聲(外部連結)
一篇探討幽默感作為衡量法學碩士(LLM)水平標準的文章。

人工智慧能開得起玩笑嗎?或是能講笑話嗎? (外部連結)
一項評估 GPT-4o、LLaMA3 和 Gemini 1.5 的幽默生成和辨識能力的研究。



[編者註]

人工智慧無法理解文字遊戲這件事告訴我們什麼?

這項研究不僅揭示了技術的局限性,也展現了理解和分享幽默這項行為背後蘊含的深刻人性。文字遊戲背後蘊藏文化、語境,以及最重要的──同理心。同理心無法透過研究海量資料獲得,只能透過生活經驗培養。

你是否曾在與人工智慧對話時感到「有些不對勁」?這種不適感的真正根源或許正是這項研究揭示的「理解錯覺」。人工智慧越接近人類,人類的獨特性就越凸顯──我們該如何應對這種諷刺的局面?