Google 翻譯現已由 Gemini 提供技術支持,可實現即時語音翻譯和上下文理解。 Google 翻譯現已由 Gemini 提供技術支持,可實現即時語音翻譯和上下文理解。

Google 翻譯現已由 Gemini 提供技術支持,可實現即時語音翻譯和上下文理解。

Google 翻譯現已由 Gemini 提供技術支持,可實現即時語音翻譯和上下文理解。

Google使用 Gemini AI 模型對Google翻譯進行了重大升級,主要改進包括更聰明的文本翻譯,能夠理解上下文、習語、俚語和地區性表達方式,並分析含義和意圖,而不是逐字逐句地翻譯,從而產生更自然的翻譯結果。

這些改進將首先在美國和印度推出,並將支援英語與近 20 種語言之間的翻譯,包括印地語、西班牙語、中文、日語和德語。

該公司還推出了基於Gemini原生音訊功能的即時語音翻譯測試版,可在Android、iOS和網頁端使用,用戶可透過耳機收聽即時翻譯。目前,該功能已在美國、墨西哥和印度的Android平台上線,支援70多種語言,並計劃於2026年支援iOS,同時在全球進一步推廣。

此外,語言學習功能也得到了擴展,口語練習期間的回饋和連續練習追蹤功能得到了改進,現在已在包括德國、印度、瑞典和台灣在內的近 20 個國家和地區提供。

從: 文献リンク谷歌翻譯終於理解了你的意思,而不僅僅是你輸入的內容。

【社論】

隨著 Gemini AI 的集成,Google翻譯已從一個簡單的翻譯工具發展成為即時溝通夥伴。這項轉變的核心是最新技術—Gemini 2.5 Flash Native Audio

傳統的機器翻譯系統採用「級聯式」方法,先將語音轉換為文本,進行翻譯,然後再將文字轉換回語音。這種方法在每個階段都會引入延遲,導致說話者的語調和節奏等重要元素遺失。 Gemini 2.5 Flash Native Audio 可以端到端地處理整個過程,顯著降低延遲,同時保留說話者的語調、語速和音高。

此次更新的一大亮點是即時語音翻譯功能,此功能提供兩種模式。第一種是“連續聆聽”,它能自動偵測您周圍的多語言對話,並將其翻譯成單一目標語言。只要戴上耳機,即可聆聽母語的聲音。第二種是“雙向對話”,它可在兩種語言之間即時互譯,並根據說話者自動切換輸出語言。

技術上的進步也十分顯著。 Gemini 2.5 Flash 原生音訊對開發者指令的遵循度從 84% 提升至 90%,在 ComplexFuncBench 音訊基準測試中取得了 71.5% 的分數。多回合對話的品質也得到了顯著提升,能夠更有效地捕捉先前回合的上下文資訊。這使得即使在較長的對話中,也能實現更一致且自然的互動體驗。

另一個重要的變化是擺脫了硬體限制:Google的即時翻譯功能以前只能在 Pixel Buds 上使用,但透過此次更新,現在可以在任何支援藍牙的耳機上使用,這對專用翻譯設備市場構成了重大挑戰。

我們在文本翻譯方面也取得了長足進展。 Gemini 現在能夠理解上下文、習慣用語、俚語和地區性表達,並透過分析意義和意圖而非逐字逐句的翻譯,產生更自然流暢的譯文。例如,在翻譯英語習語「stealing my thunder」時,Gemini 現在可以提供一個能夠準確傳達習語真正含義的譯文,而不是簡單的字面翻譯。

擴展後的語言學習功能包括改進的口語練習回饋和連續學習記錄功能,用於追蹤學習進度,並融入了類似多鄰國的遊戲化元素。這些功能現已在近20個國家和地區推出,包括德國、印度、瑞典和台灣,並新增了對英語和德語、葡萄牙語等語言的支援。

實際上,像 Shopify 和 United Wholesale Mortgage (UWM) 這樣的公司已經在使用 Gemini 2.5 Flash Native Audio。 Shopify 的產品副總裁表示,“用戶在開始使用後不到一分鐘就會忘記自己正在和人工智慧對話”,而 UWM 則報告稱,“自 2025 年 5 月推出以來,該技術已促成超過 14,000 筆貸款”。

該功能目前正在美國、墨西哥和印度的安卓裝置上進行測試版推廣,支援超過70種語言。 iOS支援和更廣泛的國家/地區推廣計畫於2026年推出,之後開發者將可以透過Gemini API使用該功能。

谷歌翻譯的升級不僅是新增功能,更是朝著透過人工智慧消除語言障礙的宏偉願景邁出的重要一步。對於旅行者、國際學生、多語言家庭以及從事國際商務的人士而言,語言障礙顯著降低的未來正逐漸成為現實。

[術語]

雙子座人工智慧
Gemini 2.0 是Google開發的下一代大規模語言模型 (LLM)。它被設計成一個多模態人工智慧,能夠原生理解和生成文字、圖像、音訊、視訊和程式碼,並於 2024 年 12 月發布。與先前的模型相比,它具有更先進的推理能力和上下文理解能力。

Gemini 2.5 Flash 原生音訊
這款 Gemini 2.5 型號配備了原生音訊功能。它無需將語音轉換為文字即可進行端到端的語音處理,從而實現低延遲、自然流暢的語音互動。其獨特之處在於能夠在翻譯過程中保持說話者的語調、語速和音高。

級聯方法<br>這是傳統機器翻譯系統中使用的處理方法。由於它涉及三個階段:使用語音識別將語音轉換為文本、翻譯文本,然後合成語音,因此每個階段都會出現延遲,導致說話者的聲音特徵丟失。

連續學習天數功能:此功能用於追蹤連續學習天數。這是多鄰國等語言學習應用中使用的遊戲化元素之一,旨在鼓勵使用者持續學習。

ComplexFuncBench 音訊
Gemini 2.5 Flash Native Audio 是一種語音 AI 評估基準測試工具,用於衡量受限條件下的多次函數呼叫效能。其得分為 71.5%。

[參考連結]

Google翻譯新增 Gemini AI 翻譯模型(外部連結)
谷歌官方部落格文章詳細介紹了由 Gemini 提供支援的翻譯升級,包括即時語音翻譯和語言學習工具。

Gemini 2.5 原生音訊升級,以及文字轉語音模型更新(外部)
本文介紹了 Gemini 2.5 Flash Native Audio 的升級,提供了語音到語音翻譯的技術細節,並介紹了企業實施範例。

谷歌翻譯(外在)
谷歌翻譯的官方網站。它提供超過100種語言之間的免費翻譯服務,支援文字、音訊、圖像和網頁翻譯。

Gemini 2.5 Flash – Google DeepMind (外部)
這是Gemini 2.5 Flash型號的官方頁面。頁面內容包括技術規格,例如支援24種語言的原生音訊輸出以及100萬個標記的上下文視窗。

Google 翻譯(外部連結)新增 AI 驅動的即時翻譯和語言學習工具
本影片介紹了Google翻譯的即時對話功能和語言學習工具,解釋了它如何實現 70 多種語言的即時雙向對話。

[參考文章]

Google翻譯新增 Gemini AI 翻譯模型(外部連結)
該消息發佈在谷歌官方部落格上。這項服務目前已在美國和印度推出,支援英語與近20種語言之間的互譯,包括印地語、西班牙語、中文、日語和德語。該公司也宣布,其語言學習工具將擴展到近20個國家和地區,包括德國、印度、瑞典和台灣。

Gemini 2.5 原生音訊升級,以及文字轉語音模型更新(外部)
本文詳細介紹了 Gemini 2.5 Flash 原生音訊的技術細節。報告顯示,其 ComplexFuncBench 音訊得分達到 71.5%,且對開發者指令的遵循度從 84% 提升至 90%。此外,本文也介紹了 Shopify 和 UWM 的案例研究。

Google 翻譯正在推出使用 Gemini 的即時翻譯功能,支援任何耳機(外接耳機)。
該公司宣佈在美國、墨西哥和印度的安卓設備上推出支援 70 多種語言的即時翻譯功能的測試版,並強調該功能現在可在所有耳機上使用。

Google 翻譯將由 Gemini 提供支援的即時翻譯功能帶到您的耳機(外部)上。
該公司表示,先前僅限 Pixel Buds 使用的即時翻譯功能現已在所有耳機上推出,並解釋了保留說話者語氣、重音和節奏的技術特性。

Google 翻譯為所有安卓用戶解鎖 Gemini AI 即時語音翻譯功能(外部連結)
本文分析了硬體獨佔性的終結以及專用翻譯設備面臨的挑戰,並從技術角度解釋了 ​​Gemini 2.5 Flash Native Audio 如何實現低延遲處理和串流語音到語音翻譯。

Google翻譯升級至 Gemini AI 技術(外部連結)
該公司報告稱,20 種主要語言的自然翻譯流程得到了改進,並推出了兩種翻譯模式:「快速」和「高級」。

Google翻譯透過 Gemini(外部)獲得重大升級
它解釋了廣泛的翻譯覆蓋範圍,支援 70 多種語言和 2000 多種語言對,並強調多語言輸入和自動檢測功能消除了手動更改語言設定的需要。

[編者註]

我們或許正在見證一個語言障礙逐漸消失的未來。谷歌翻譯的這次更新不僅是功能上的改進,更是一項宏大實驗中的一步,旨在探索人工智慧在多大程度上能夠自然地搭建人與人之間的溝通橋樑。或許,這樣的體驗——例如用母語與旅途中遇到的人交談,或是即時理解國外的講座——比你想像的更近。在一個沒有語言障礙的世界裡,你想和誰交談?你想聊些什麼?