Google Gemini 3 Deep Think：人類的最後考試和 ARC-AGI-2 展示了「下一代推理人工智慧」的強大功能

2026-01-02

Google Gemini 3 Deep Think：人類的最後考試和 ARC-AGI-2 展示了「下一代推理人工智慧」的強大功能

12 月 4 日，Gemini 3 Deep Think 在 Gemini 應用中向 Google AI Ultra 訂閱用戶開放。

Gemini 3 的深度思考模式旨在對複雜的數學、科學和邏輯問題進行高階推理。它在不使用工具的情況下，在「人類最後的考試」測試中取得了 41.0% 的分數；在執行程式碼的情況下，它在 ARC-AGI-2 測試中取得了 45.1% 的分數。

這些功能被解釋為基於先進的平行推理，能夠同時考慮多個假設。 Gemini 3 Deep Think 模式進一步發展了前代 Gemini 系列中研究的先進推理方法，其定位是增強解決複雜數學、程式設計和邏輯問題的能力。

Ultra 使用者可以透過在 Gemini 應用的提示欄中選擇“深度思考”，並在型號下拉選單中指定 Gemini 3 Pro 來存取該服務。

從： Gemini 3 Deep Think 現已在 Gemini 應用程式中推出。

【社論】

Gemini 3 Deep Think 是 Google DeepMind 為 Gemini 3 系列推出的「進階推理模式」 。其主要特點在於，它將以往只有研究人員和頂級競賽才能使用的推理能力帶給了普通用戶，當然，這需要付費訂閱。人類最後的考試 (Humanity's Last Exam) 的準確率達到 41.0%，ARC-AGI-2 的準確率達到 45.1%，這不僅僅意味著很高的準確率；它們正日益成為前沿模型之間「自然智慧競賽」的指標，展現了它們是否能夠「即使面對未知問題也能探索合理的假設」。

Deep Think 獨特的平行推理機制模擬了人類在白板上寫下多個假設，然後在大型模型上進行比較的過程。它並非沿著單一思路一路推演到底，而是同時運行多個假設，並在過程中不斷捨棄或合併假設以提高準確性。這使得它在處理難以一次解決的問題時特別有效，例如數學、程式設計和邏輯謎題。

這項能力對社會的影響遠不止於「快速完成作業的工具」。我們很可能會看到人工智慧作為腦力激盪夥伴的應用加速發展，尤其是在那些以往只有少數專家才能勝任的高度抽象任務領域，例如研發、高級設計以及新演算法和理論的探索。同時，高階推理模式的底層結構被隱藏在付費計畫之後，這可能會進一步拉大那些能夠外包思維的人和那些無法外包思維的人之間的差距。

從監管和治理的角度來看，有必要針對每個領域詳細設計「人工智慧可以承擔的決策層級」。在金融、醫療保健和國家安全等領域，單一決策可能產生重大影響，因此必須制定係統性的審核流程，例如使用類似Deep Think這樣的模式作為自動化決策的“控制塔”，但前提是最終仍需人工審核。

這項更新也引出了一個問題：「我們能在多大程度上將人類智慧外化為實際產品？」對於每位讀者而言，明確自己「希望在多大程度上獨立思考，又希望在多大程度上依賴人工智慧」至關重要，這樣才能按照自己的意願設計即將到來的人工智慧時代。

[術語]

人類的最後考試（HLE）
這是一個由 Scale AI 和人工智慧安全中心共同開發的包含 2500 個問題的多模態基準，它是一個衡量人工智慧模型在包括數學、自然科學、人文和社會科學在內的廣泛領域中解決難題的推理能力的指標。

ARC-AGI-2
它是透過讓機器人推斷抽象規則和模式來評估其解決未知問題的一般問題能力的基準，並被視為衡量機器人是否具有接近通用人工智慧 (AGI) 能力的試金石。

雙子座3號深思熟慮
這是GoogleDeepMind Gemini 3提供的一種高級推理模式，它是一種專門的推理功能，透過並行考慮多個假設，擅長解決複雜的數學、科學和邏輯問題。

平行推理
這種推理方法並非依賴單一的思考路徑，而是同時提出多個假設和方法，對它們進行比較和整合，從而得出最終答案，這是提高深度思考準確性的關鍵。

[參考連結]

Gemini 3 深度思考官方部落格（外部連結）
這是一篇谷歌官方公告文章，介紹了 Gemini 3 Deep Think 模式、HLE 和 ARC-AGI-2 分數以及如何使用它。

Gemini 3 型號概覽頁面（外部連結）
這是GoogleDeepMind的官方說明頁面，其中列出了整個Gemini 3系列的規格、主要基準測試結果以及Deep Think模式的定位。

人類最後的考試官方網站（外部連結）
這是官方資訊網站，詳細解釋了測試的規範，包括 HLE 基準測試的設計理念、問題結構和多模態評估策略。

[參考文章]

雙子座3號開啟智慧新時代（外部）
這是一篇谷歌官方文章，介紹了 Gemini 3 系列的更新，並解釋了 Deep Think 如何在多個基準測試中展現出超越現有模型的推理性能。

[編者註]

隨著像 Gemini 3 Deep Think 這樣的模式逐漸普及，我認為我們獨立思考和人工智慧決策之間的界線將會被悄悄質疑。未來，創造力和工作的價值或許不再在於快速找到正確答案，而是我們如何設計思考過程。

By 閱讀

Updated 2026-01-02

By閱讀