Gemini 3 Flash 發布,專業級推理速度提升三倍——以高性價比樹立人工智慧競賽新標桿 Gemini 3 Flash 發布,專業級推理速度提升三倍——以高性價比樹立人工智慧競賽新標桿

Gemini 3 Flash 發布,專業級推理速度提升三倍——以高性價比樹立人工智慧競賽新標桿

Gemini 3 Flash 發布,專業級推理速度提升三倍——以高性價比樹立人工智慧競賽新標桿

谷歌於 2025 年 12 月 17 日發布了一款新的 AI 模型「Gemini 3 Flash」。模型結合了 Gemini 3 Pro 的推理能力和 Flash 等級的速度,使其速度比 Gemini 2.5 Pro 快三倍,同時價格也便宜得多。

定價為每百萬輸入代幣 0.50 美元,每百萬輸出代幣 3 美元。在基準測試中,它在 GPQA Diamond 測試中取得了 90.4% 的分數,在不使用工具的情況下在 Humanity's Last Exam 測試中取得了 33.7% 的分數,在 MMMU Pro 測試中取得了 81.2% 的分數。此外,它在編碼代理評估測試 SWE-bench Verified 中也取得了 78% 的分數,優於 Gemini 3 Pro。

Gemini 3 Flash 可透過 Gemini 應用程式、搜尋中的 AI 模式、Google AI Studio、Vertex AI、Gemini Enterprise、Gemini CLI 和 Android Studio 取得,並已被 JetBrains、Bridgewater Associates 和 Figma 等公司採用。

從: 文献リンク雙子座3號閃電:為速度而生的前沿智能

【社論】

谷歌發布 Gemini 3 Flash 的舉動引人注目,因為它試圖重新定義人工智慧產業的價格與效能之間的平衡。這款產品是在與 OpenAI 的激烈競爭中發布的。事實上,據報道,在Google的 Gemini 應用市場份額上升、ChatGPT 流量下降之後,OpenAI 的 CEO Sam Altman 曾向谷歌發出「紅色警報」備忘錄。

這次發布的Gemini 3 Flash最值得關注的地方在於,它並非簡單的「廉價版」。雖然其每百萬輸入代幣0.50美元、每百萬輸出代幣3美元的價格略高於上一代Gemini 2.5 Flash(輸入0.30美元,輸出2.50美元),但性能卻顯著提升。事實上,它的速度是高階型號Gemini 2.5 Pro的三倍,但價格卻不到後者的四分之一。

這款模型的真正價值在於其代幣消耗效率。對於典型任務,它的性能至少與 Gemini 2.5 Pro 相當,但平均消耗的代幣卻少 30%。這意味著您不應只關注表面價格,還應根據其實際性價比進行評估。

從技術角度來看,Gemini 3 Flash 的革命性之處在於它可以動態調整其「思考層次」——從快速反應簡單任務到深入思考複雜問題。這種適應性使企業能夠針對不同的應用程式場景最佳化成本管理。

對開發者社群的影響不容忽視。在編碼代理評估的標準基準測試 SWE-bench Verified 中,它取得了 78% 的得分,不僅超越了 Gemini 2.5 系列,甚至超越了更高端的 Gemini 3 Pro。這表明,高速型號在高頻開發工作流程中甚至有可能超越性能最高的型號。

在企業應用方面,JetBrains、Figma、Cursor、Harvey 和 Latitude 都已率先採用了相關技術。特別是 Harvey,其在法律行業基準測試中的推理性能提升了 7%;而 Resemble AI 則聲稱,與 2.5 Pro 相比,其在深度偽造檢測方面的處理速度提高了 4 倍。

然而,這其中也存在潛在風險。谷歌已將全球所有 Gemini 應用用戶的預設 Flash 模型從 2.5 版升級到 3 版。此舉旨在為免費用戶提供最新技術,但同時也是大規模的即時測試。正如 Axios 指出的那樣,“隨著Google更積極地將 Gemini 整合到其產品中,問題仍然存在:它能否在大規模應用中保持準確性?”

此次發布有可能改變人工智慧產業競爭激烈的格局。雖然Google和OpenAI的統治地位日益明顯,但Anthropic、Meta、xAI和DeepSeek等公司也不容忽視。尤其值得一提的是,GitHub宣布將在Copilot支援Gemini 3 Flash,預示著此次發布將對整個生態系統產生深遠的影響。

從長遠來看,這種模型可能會重新定義「前沿模型」的含義。規模最大、成本最高的模型並不總是最佳選擇,而針對特定應用優化的中等規模模型往往更具實用性。這種普遍的認知可能會改變人工智慧的發展方向。

[術語]

雙子座3 Pro
Google於 2024 年 11 月發布的 Gemini 3 系列頂級型號,在複雜推理、多模態理解和智能體功能方面表現卓越,可提供最高級別的性能。 Gemini 3 Flash 繼承了此機種的推理能力。

SWE-bench 已驗證
此基準測試評估人工智慧編碼代理在軟體工程中的能力。它衡量它們解決從實際GitHub程式碼庫中提取的問題的能力,並在業界被廣泛用作衡量其在開發環境中實用性的指標。

GPQA鑽石級
此基準衡量博士級別的科學知識和推理能力。它評估物理、化學和生物等專業領域的高階問題解決能力,並可作為人工智慧模型智慧水準的指標。

人類的最後考試
這項極具挑戰性的基準測試全面評估了人工智慧在多個專業領域的知識和推理能力。它以設定挑戰人類智力極限的問題而聞名,並用於衡量人工智慧的通用智慧。

MMMU Pro
用於評估多模態(文字、圖像、語音等)理解和推理能力的基準。它衡量透過整合多種模態解決問題的能力,並可作為實際應用能力的指標。

帕累托最優(帕累托前緣)
同時優化多個目標(在本例中為效能、成本和速度)的理論極限。它指的是一個邊界,在該邊界上,改進一個目標會導致其他目標的惡化,而 Gemini 3 Flash 則突破了這個邊界。

令牌
AI模型處理的最小文字單元。在英文中,一個字約等於1.3個詞元(token),在日文中,一個字約等於2-3個詞元。 API使用費根據詞元數量計算。

智能體工作流程
人工智慧自主執行多項任務、使用各種工具並根據結果決定下一步的一系列流程。這是一種新型的人工智慧應用方式,能夠在極少人工幹預的情況下實現複雜的目標。

多模態<br>能夠同時理解和處理多種形式的數據,例如文字、圖像、音訊和視訊。 Gemini 3 Flash 可以原生處理所有這些資料格式。

延遲
AI模型接收到請求到傳回第一個回應之間的延遲時間。該指標對於即時和互動式應用至關重要。

[參考連結]

Google AI Studio (外部)
一個開發者平台,允許用戶測試谷歌的生成式人工智慧。它提供了一個免費的環境來試用 Gemini API。

Google Antigravity (外部連結)
谷歌於 2024 年 11 月發布了一個新的代理開發平台,該平台有助於建置和部署 AI 代理程式。

Vertex AI (外部)
Google Cloud 的企業級 AI 平台,支援機器學習模式的整合開發、部署和管理。

JetBrains (外部)
一家軟體開發工具公司,提供 IntelliJ IDEA 和 PyCharm 等整合開發環境,並被世界各地的開發人員使用。

Figma (外部)
一家提供基於雲端的設計工具的公司,已成為 UI/UX 設計協作工具的行業標準。

橋水聯合基金(外部)
全球最大的對沖基金之一,由雷·達裡奧創立,以其數據驅動的投資策略而聞名。

人工分析(外部)
一個獨立評估和比較人工智慧模型性能、速度和成本的基準測試平台,被譽為行業標準評估指標。

哈維(外部)
為法律產業提供人工智慧平台的新創公司。它專門為大型律師事務所開發人工智慧解決方案。

類似人工智慧(外部)
提供語音合成和深度偽造檢測技術的公司。它開發即時語音生成和詐欺內容檢測解決方案。

遊標(外部)
一家提供人工智慧整合程式碼編輯器的新創公司,支援人工智慧輔助結對編程,以幫助提高開發人員的生產力。

緯度(外部)
一家提供人工智慧遊戲創作引擎的公司,使用戶能夠利用人工智慧創建互動故事和遊戲。

[參考文章]

Google 發布 Gemini 3 Flash,並將其設為 Gemini 應用(外部)中的預設型號
TechCrunch 對此進行了詳細報道,包括定價、基準比較以及 OpenAI “Code Red” 背後的故事。

Gemini 3 閃光燈上市,成本和延遲均降低(外置)。
VentureBeat 從企業使用的角度進行了分析,詳細介紹了 Harvey 和 Resemble AI 等企業使用的具體範例。

Google Gemini 3 Flash 速度快、價格低廉且隨處可用(外接)。
Axios 的分析重點在於 Google 和 OpenAI 之間的競爭格局,並報告了市場份額的變化。

使用 Gemini 3 Flash 建置:可擴展的前沿智慧(外部)
這是谷歌面向開發者的官方網站。網站詳細解釋了技術細節和實際範例,包括 Astrocade。

谷歌的Gemini 3 Flash憑藉著更快的反應速度引起了廣泛關注(外部)
SiliconANGLE 的效能分析顯示,Box 的效能主管表示整體準確率提高了 15%。

Gemini 3 Flash 現已開放給 GitHub Copilot(外部)公開預覽。
GitHub 官方公告。公開預覽版已在 Copilot 部署,並可在 VS Code 和其他平台上使用。

[編者註]

人工智慧模式的發展或許正步入一個「最大最便宜」不再是最優解的時代。您日常使用的人工智慧工具真的能滿足您的需求嗎?隨著像 Gemini 3 Flash 這樣兼顧速度和推理能力的模型的出現,我們的選擇無疑地更加豐富。身為開發者,您是如何權衡成本效益和效能的呢?

對於一般用戶而言,免費人工智慧效能的提升將為日常生活帶來哪些改變?在這個轉折點,您希望如何與人工智慧互動?請在社交媒體上分享您的想法。