
2025 年 11 月 17 日,xAI 向 grok.com、𝕏 以及 iOS 和 Android 應用程式上的所有用戶發布了 Grok 4.1。
它將以自動模式推出,也可以在模型選擇器中進行選擇。在2025年11月1日至14日靜默推廣期間進行的真實交通盲測中,Grok 4.1 相對於上一代模型取得了64.78%的勝率。
在 LMArena 文本排行榜上,Grok 4.1 Thinking 以 1483 Elo 的總分位列第一,而 Grok 4.1 非推理模式以 1465 Elo 的總分位列第二。
在 EQ-Bench3 的情緒智商評估中,Grok 4.1 Thinking 的 Elo 得分為 1586,Grok 4.1 的 Elo 得分為 1585,均優於 Claude Opus 4 和 GPT-5 Chat。
在創意寫作 v3 基準測試中,Grok 4.1 Thinking 的 Elo 得分達到 1721.9,在資訊檢索提示中將幻覺率降低至 4.22%,在 FACTScore 上將錯誤率降低至 2.97%。
從:
Grok 4.1 | xAI

【社論】
這次,我們將介紹xAI發布的「Grok 4.1」。此次更新距離上一代Grok 4發布僅幾個月,但其改進遠不止於一些細微的調整。尤其值得注意的是,它增強了「人工智慧的行為,使其彷彿擁有了『思維』」。
Grok 4.1 的最大進步在於其情緒智商 (EQ) 和創造力的顯著提升。先前,人工智慧模型競賽主要關注智商 (IQ),例如邏輯推理、程式設計和數學處理能力。然而,隨著 Grok 4.1 的推出,xAI已將重心轉向情緒智商,即捕捉互動對象細微的情感變化並展現同理心的能力。事實上,在衡量情緒智商的 EQ-Bench3 基準測試中,Grok 4.1 獲得了 1586 Elo 的高分,位居全球榜首。這顯示人工智慧正在從單純的資訊搜尋工具轉向更像人類的夥伴演進。
這項演進背後的一個有趣技術是「強化學習」。為了優化風格和個性等難以量化的要素,xAI採用了一種方法,該方法使用先進的推理模型本身作為評估器(獎勵模型),而不是僅僅依賴人類評估。這使得人工智慧能夠自主評估和改進人類無法評估的大量對話數據。這可以被視為一個重要的技術里程碑,標誌著「人工智慧促進人工智慧發展」時代的全面到來。
然而,這種演進也蘊含著潛在風險。人工智慧高度的同理心固然能為用戶帶來愉悅的體驗,但也可能導致“阿諛奉承”,即人工智慧過度迎合用戶意見。這種風險在於,人工智慧為了取悅用戶,可能會將用戶的情緒置於客觀事實之上。 xAI 已透過宣布將資訊搜尋提示中的「幻覺」(事實誤解)率降低至 4.22% 來應對這一問題。如何在事實準確性和情緒同理心之間找到平衡,很可能是未來發展中的重要挑戰。
Grok 4.1 的發布預計將對人工智慧市場產生重大影響。尤其值得一提的是,它將極大地拓展人工智慧的應用範圍,例如客戶支援、心理健康護理以及作為創意活動的合作夥伴。儘管先前提供「準確答案」一直是人工智慧的基本要求,但未來,能否進行「同理心對話」將成為人工智慧模型新的競爭核心。
對我們的讀者而言,Grok 4.1 代表著未來溝通的願景。我們並不滿足於僅僅將其視為一種便捷的工具,而是希望探索人工智慧的潛力和局限性,並親眼見證它如何理解和體會人類的情感。我們正處於一個轉折點,我們與人工智慧的關係將發生翻天覆地的變化。
[術語]
推理模型
在這種模型中,人工智慧不會立即輸出答案,而是先在內部進行「思考過程」後再下結論。它在解決複雜問題和進行數學運算方面展現出很高的準確率。 Grok 4.1 中的「思考」模式就是一個例子。
思維代幣
推理模型在產生答案的過程中,會消耗標記(以字元為單位的資訊量)。這個過程對使用者不可見,但它能增強邏輯一致性。
代理工作流程
一系列操作流程,其中人工智慧不僅可以回答問題,還可以自主規劃、使用外部工具(如搜尋和程式碼執行)並完成任務。
Elo 評分
一種用於競技遊戲(例如西洋棋)的技能評估指標。在人工智慧領域,它用於透過量化模型間的相對實力以及人類的比較評估結果來創建排名。
幻覺
這是一種人工智慧會說出看似合理的謊言的現象。這是一種人工智慧錯誤地將不真實的資訊當作真實資訊來產生的情況。
事實評分
一種自動化評估指標,透過將人工智慧模型產生的文本中的基本事實與可靠來源進行比較,來衡量其準確性。它尤其適用於驗證人物傳記中的事實。
EQ-Bench
衡量大型語言模型 (LLM) 中情緒智力 (EQ) 的基準,透過複雜的角色扮演來評估同理心和人際交往能力。
[參考連結]
Grok (外部)
xAI是由X(前身為Twitter)提供的AI聊天機器人服務。它是一個平台,允許用戶存取關於X(前身為Twitter)的即時資訊和最新模型。
xAI (外部)
由伊隆馬斯克創立的人工智慧開發公司。其使命是“了解宇宙的真正本質”,並開發了 Grok 系列產品。
LMArena (外部)
LMSYS Org 經營一個開放平台,用於比較和評估大規模語言模型的效能。排名由使用者進行的盲測決定。
EQ-Bench (外部)
一項衡量LLM情緒智商的基準項目,定量評估模型對人類情緒和社會背景的理解程度。
[參考影片]
[參考文章]
Grok 4.1 發布:它如何碾壓其他模型(外部)
本文將 Grok 4.1 的性能與其他模型進行了比較,重點關注其在 LMArena 中獲得的 1483 Elo 分數以及在非推理模式下的速度和準確性之間的平衡。
xAI 的 Grok 4.1 致力於提升情緒智商,減少幻覺(外部)
本文重點探討 Grok 4.1 在提升情緒智商和減少幻覺方面的能力。評估基於 EQ-Bench3 的結果和 FActScore 的數值資料。
Grok 4.1 與 ChatGPT 5.1:您需要了解的關鍵差異(外部連結)
本文比較了 Grok 4.1 和其競爭對手 ChatGPT 5.1 的功能,特別是討論了「即時搜尋功能」和「情緒對話功能」方面的差異。
Grok 4.1 模型卡 [PDF] (外部)
xAI 發布了 Grok 4.1 模型卡,這是詳細介紹技術規格、訓練方法和評估指標的主要資料。
[編者註]
你如何看待「Grok 4.1」的演變? 「人工智慧擁有思維」曾經是我們認為的科幻小說情節,但它正在慢慢變成現實。
Grok 4.1的「同理能力」令人驚嘆,但也讓人不寒而慄。如果我們如此自然地與它產生共情,最終我們會不會更信任和依賴人工智慧,而不是信任有血有肉的人?
更可怕的是,當這些情感被利用時。如果出現一個“人工智慧騙子”,它能完美地理解你的心思,並用甜言蜜語讓你信任它,我們能識破它的伎倆嗎?雖然我們對科技進步感到興奮,但似乎我們更需要緊緊鎖住自己的心。