GPT-5.2 將重新定義職業:GDPval、ARC-AGI-2 和 Tau2 基準測試結果都指向「超級智能體時代」。 GPT-5.2 將重新定義職業:GDPval、ARC-AGI-2 和 Tau2 基準測試結果都指向「超級智能體時代」。

GPT-5.2 將重新定義職業:GDPval、ARC-AGI-2 和 Tau2 基準測試結果都指向「超級智能體時代」。

GPT-5.2 將重新定義職業:GDPval、ARC-AGI-2 和 Tau2 基準測試結果都指向「超級智能體時代」。

OpenAI 發布了 GPT-5.2 系列,顯著提升了其在專業知識任務上的效能。 GPT-5.2 Thinking 在 GDPval 的多項知識任務中表現已達到行業專家的水平,並且在面向投資銀行分析師的入門級電子表格任務中也取得了優異成績。

在軟體工程評估(如 SWE-Bench Pro 和 SWE-bench Verified)、科學和數學基準測試(如 GPQA Diamond 和 FrontierMath)以及抽象推理指數 ARC-AGI-2 中,也報告了優於先前模型的結果。

ChatGPT 提供 GPT-5.2 Instant、Thinking 和 Pro 三個版本,均採用付費模式,API 版本包括 gpt-5.2、gpt-5.2-chat-latest 和 gpt-5.2-pro,同時也公佈了輸入和輸出代幣的價格。

從: 文献リンク隆重介紹 GPT-5.2

【社論】

GPT-5.2 不僅僅是“改進版”,它代表著一個知識工作與智能體工作流程完全融合的模型。諸如 GDPval、ARC-AGI-2 和 Tau2-bench 等新的基準測試結果顯示,GPT-5.2 的表現顯著優於人類專家和以往的模型,這標誌著一個轉折點。

尤其重要的是,長篇情境處理、工具呼叫、視覺識別和編碼等要素被視為“整合代理能力”,而非單獨增強。 Tau2 -bench 電信和零售測試的高分錶明,單一模式能夠在長時間的多輪對話中穩定地使用工具,這為企業將架構從「眾多小型機器人」重構為「少數大型代理商」提供了切實可行的理由。

另一方面,這種程度的自動化將徹底改變白領工作的模式。如果同一模型可以應用於電子表格、財務模型、客戶支援和程式碼修改,那麼如何界定哪些決策應由人類做出,哪些決策應交給人工智慧,必然會成為管理和現場管理的重要議題。

就安全性而言,值得注意的是,在加強對心理健康和敏感對話的支持、引入年齡估計模型等方面,也在取得進展。高階代理商與使用者互動的時間越長,出現錯誤訊息和有害建議的風險就越大,因此這些安全措施正成為維持監管機構和社會信任的「先決條件」。

關鍵不在於 GPT-5.2 是否會取代我的工作,而是我目前工作職能的哪些部分可以重新設計,以便與智慧體合作。長篇上下文資訊和多工具使用的結合,使人類擺脫了耗時的中間流程,例如研究、分析和文件創建。新的競爭焦點將是他們能否將這些精力投入「目標設定和判斷品質」。

從長遠來看,正如ARC-AGI基準測試的改進所表明的那樣,我們開始看到人工智慧在抽象問題設定和理論推理領域展現出的潛力。或許GPT-5.2的真正影響在於,我們正在進入一個需要與人工智慧進行協作設計的時代,即使是那些傳統上被認為是「人類領域」的智力活動,例如演算法設計和科學研究。

[術語]

GDPval
這是一個知識工作基準,用於評估對美國 GDP 貢獻巨大的行業中 44 個職業的實際交付成果(例如銷售文件和會計電子表格)的品質。

ARC-AGI-1 / ARC-AGI-2
它是衡量抽象推理能力的基準,而 ARC-AGI-2 是更注重難度和流暢推理的新版本。

Tau2 台架
這是一組基準,用於評估模型是否能夠使用工具在客戶支援領域透過多輪互動完成任務。

OpenAI MRCRv2
這是一個用於多輪共指消解任務的資料集,用於衡量長文本上下文理解能力,並評估多個「針」是否可以嵌入到長長的「乾草堆」中並準確恢復。

GPQA鑽石級
這是一份科學問題基準測試,包含研究生級別的物理、化學和生物學問題,這些問題的答案無法透過谷歌搜尋輕易找到。

FrontierMath
這是專家級數學問題的基準,依難度分為 1 到 4 級。

SWE‑Bench Pro / SWE‑Bench 認證版
Pro 是一款軟體工程評估工具,它針對真實的程式碼庫產生錯誤修復和功能添加補丁,強調多語言和產業相關性。

CharXiv 推理
這是一個衡量多模態科學理解能力的基準,它透過讓參與者回答有關科學論文中的圖表的問題來衡量這一能力。

ScreenSpot-Pro
這是一項視覺任務,透過分析高解析度 GUI 螢幕截圖來評估介面理解能力。

推理努力
這是分配給模型推理的計算量的設定參數;值越高,推理越深入,但延遲和成本也越大。

[參考連結]

OpenAI (外部)
這是 OpenAI 的官方網站,提供與 GPT 系列、ChatGPT、API 和安全研究等前沿模型相關的資訊。

GDPval 基準(外部)
這是 GDPval 的官方頁面,解釋了其設計目標和範例任務,該程式使用 44 個職業的知識工作任務來評估模型效能。

OpenAI API 定價(外部)
這是一個價格表頁面,您可以在這裡查看每種型號的輸入和輸出代幣單位價格和現金折扣,包括 gpt-5.2 和 gpt-5.2-pro。

GPQA 鑽石(外部)
這是 GPQA(研究生水平科學問題基準測試)的論文頁面,其中總結了資料集組成和評估方法。

FrontierMath 基準測試(外部)
本頁概述了 FrontierMath,它使用專家級數學問題來衡量模型能力,並介紹了每個模型的得分。

[參考影片]

[參考文章]

OpenAI 發布 GPT-5.2,幫助其應對「紅色警報」 (外部連結)
這是一篇分析文章,總結了 GPT-5.2 將對企業工作流程和安全討論產生的影響,並考慮了與競爭模型的比較以及「紅色警報」的背景。

GPT-5.2 評測:GDPval 得分高達 70%,遠超過業界專家(外部評測)
這是一份技術評論,它匯總了 GDPval、Tau2-bench、FrontierMath 等的評分,並從巨型智能體開發和成本效益的角度評估了 GPT-5.2。

GPT-5.2 在人工智慧基準測試中超越Google的 Gemini 3 (外部數據)
本文解釋了性能競賽的背景,重點介紹了它在 GPT-5.1 之後如此迅速地發布,以及它在多個基準測試中如何超越 Gemini 3。

GPT-5.2 + 聊天資料:中小企業的生產就緒型工作流程 AI (外部資源)
這篇部落格文章介紹了利用 GPT-5.2 的中小型企業的工作流程 AI 和代理配置範例,並解釋了實際操作的設計要點。

[編者註]

隨著我們關注 GPT-5.2 的發展,我們越來越覺得「我們應該把多少工作交給人工智慧,又應該在哪些方面發揮我們自己的作用」這個問題不可避免。在你目前的工作中,你覺得研究、文件準備等方面有哪些環節是必要的,但你其實更希望花更多時間在這些環節上?

如果可以將部分工作委託給智能體,您希望將更多時間投入哪些決策、設計、對話和創作?從這個角度來看 GPT-5.2,您可能會看到一個略有不同的景象:它不再是“遙遠未來的技術”,而是與您攜手共創未來工作環境的伙伴。