Google Gemini 2.5 Flash 原生音訊重大更新:AI 語音對話向人類層級發展 Google Gemini 2.5 Flash 原生音訊重大更新:AI 語音對話向人類層級發展

Google Gemini 2.5 Flash 原生音訊重大更新:AI 語音對話向人類層級發展

Google Gemini 2.5 Flash 原生音訊重大更新:AI 語音對話向人類層級發展

2025年12月12日,Google發布了更新版的Gemini 2.5 Flash原生音頻,用於即時語音助理。該模型現已在Google AI Studio、Vertex AI、Gemini Live和Search Live中可用,其中Search Live率先支援原生音訊功能。

此改進主要有三點:外部函數呼叫可靠性顯著提升,在 ComplexFuncBench Audio 測試中得分達到 71.5%;對開發者指令的遵循度從 84% 提升至 90%;多輪對話的品質也大幅提高。 Shopify、United Wholesale Mortgage 和 Newo.ai 等公司已開始應用這項技術,其中 UWM 自 2025 年 5 月推出以來已促成超過 14,000 筆貸款。

Gemini 還推出了支援 70 多種語言和 2000 多個語言對的即時語音翻譯功能,該功能從今天開始在美國、墨西哥和印度的 Android 裝置上以測試版的形式在 Google 翻譯應用程式中推出。

從: 文献リンク改良的 Gemini 音訊模型,帶來更強大的語音互動體驗

【社論】

Gemini 2.5 Flash Native Audio 更新標誌著語音 AI 領域的一個重要技術里程碑,因為它不僅提高了效能,而且還試圖解決人機互動中的一個根本性挑戰。

傳統的語音人工智慧系統採用多步驟流程,將語音轉換為文本,進行處理,然後再轉換回語音,而 Gemini 的「原生音訊」方法能夠理解並產生語音,保留對人類交流至關重要的非語言訊息,例如說話者的情緒、語調和停頓。

尤其值得注意的是「函數呼叫」功能的顯著提升。它在 ComplexFuncBench 音訊評估指標中取得了 71.5% 的分數,根據原文中的圖表,其性能優於先前的版本以及 OpenAI 的 gpt-realtime 模型。這意味著 AI 可以在對話過程中存取外部系統以獲取即時訊息,而不會中斷對話的自然流暢性。例如,如果使用者詢問“明天東京的天氣怎麼樣?”,AI 可以呼叫天氣 API 並將結果融入對話中。

值得注意的是,開發者的合規率提高了6個百分點,從84%提升至90% ,這意味著企業現在可以更自信地依賴語音AI進行客戶支援和接待工作。事實上,United Wholesale Mortgage報告稱,自2025年5月推出以來,該公司已使用該技術處理了超過14,000筆貸款。

另一項創新是Google翻譯應用中新增的即時語音翻譯功能。此功能支援超過70種語言和2000多個語言對,能夠保留說話者的語氣、語速甚至音高。透過保留以往機器翻譯中經常失去的“說話個性”,它實現了更接近人聲的溝通。目前,該功能已在美國、墨西哥和印度的安卓設備上推出測試版,預計2026年擴展到iOS和其他地區。

然而,潛在挑戰依然存在。語音辨識的準確性會受到嘈雜環境和口音的影響,儘管谷歌強調其係統具有抗噪能力,但在真實環境中進行測試仍然至關重要。即時語音翻譯對社會的影響也需要考慮。降低語言障礙將促進國際交流,但同時,也存在因翻譯錯誤和文化細微差別而導致誤解的風險。

此外,如果這項技術已廣泛應用,將會對口譯員和筆譯員等職業的性質產生影響。然而,目前人工智慧還無法完全取代人類口譯員的文化理解能力和情境判斷能力。相反,未來可能會出現一種協作關係:人工智慧可以協助進行基礎溝通,而人類專家則專注於更複雜的情況。

長期來看,這項技術有可能為教育、醫療、商業等各領域帶來變革,實現跨越語言障礙的知識共享,促進國際合作,增進不同文化背景人士之間的相互了解。

[術語]

原生音訊
這項技術直接處理語音,無需將其轉換為文字。傳統的語音人工智慧需要多個轉換步驟:語音→文字→處理→文字→語音。而原生音訊技術則將語音視為語音,因此可以保留語調和情緒等非語言訊息。

函數呼叫
此功能利用人工智慧自動呼叫外部API(例如天氣資訊、資料庫、預訂系統等)來獲取基於對話上下文的即時資訊。即使沒有使用者明確指示,當人工智慧認為有必要時,此功能也會執行。

ComplexFuncBench 音訊
此基準測試評估呼叫複雜函數的能力。它衡量在各種約束條件下的效能,包括多步驟函數呼叫。 Gemini 2.5 Flash Native Audio 的得分為 71.5%。

[參考連結]

Google AI Studio (外部)
一個免費的開發環境,可用於試用 Gemini 模型。您甚至可以試用 Gemini 2.5 Flash Native Audio。

Vertex AI (外部)
Google 的企業級 AI 平台 Gemini 2.5 支援 Flash Native Audio 的商業部署。

谷歌翻譯(外在)
谷歌的免費翻譯服務。採用 Gemini 2.5 技術,具備即時語音翻譯功能。

Shopify (外部)
電子商務平台 Shopify 已將 Gemini 2.5 整合到其人工智慧助理 Sidekick 中。

Gemini API 文件(外部)
Gemini API 的官方文檔,提供有關語音生成、整合方法等的技術資訊。

[參考文章]

將最先進的 Gemini 翻譯功能引入 Google 翻譯(外部)
谷歌官方部落格。公佈了即時語音翻譯功能的詳細信息,並宣布支援英語和大約20種其他語言。

谷歌升級後的 Gemini 2.5 Flash Native Audio 模型使 AI 更具對話性(外部)
具體來說,指令執行率從 84% 提高到 90%,在 ComplexFuncBench Audio 測試中得分為 71.5%。

谷歌翻譯現在支援透過耳機(外接耳機)即時收聽翻譯結果。
目前,美國、墨西哥和印度已推出即時語音翻譯功能,預計 2026 年將推出 iOS 版本。

[編者註]

語音人工智慧越接近人類對話,就越有可能改變我們溝通的本質。在一個沒有語言障礙的世界裡,你想和什麼樣的人溝通?當人工智慧能夠理解情感和細微差別時,你認為哪些溝通方式將只有人類才能做到?

我們非常希望聽到您的想法。 innovaTopia 編輯團隊也希望與讀者們一起探討這項技術的未來發展。