Grok語音代理API發布:xAI進軍語音AI市場,以業界最低價格碾壓競爭對手 Grok語音代理API發布:xAI進軍語音AI市場,以業界最低價格碾壓競爭對手

Grok語音代理API發布:xAI進軍語音AI市場,以業界最低價格碾壓競爭對手

Grok語音代理API發布:xAI進軍語音AI市場,以業界最低價格碾壓競爭對手

xAI 於 2025 年 12 月 17 日發布了 Grok 語音代理 API。該 API 支援數十種語言,並可用於建立能夠呼叫工具和搜尋即時資料的語音代理。它基於與行動應用和特斯拉汽車相同的技術堆疊構建。

Grok Voice Agent API 在 Big Bench Audio 排名第一,平均首次音訊回應時間不到一秒,比最接近的競爭對手快近五倍,定價為每分鐘連接時間 0.05 美元,是業內最低的,相比之下,Deepgram AI 為 0.08 美元,ElevenLabs Agents 為 0.088 美元,OpenAItime API 4010 美元,B. 3088 美元,OpenAItime API. 4100 美元,Bland 100 美元。

在與 OpenAI Realtime API 的盲測中,該 API 在俄語、西班牙語和越南語中的勝率分別為 85.4%、67.2% 和 66.7%。此 API 與 OpenAI Realtime API 規範相容,也可透過 xAI LiveKit 外掛程式使用。我們計劃在未來幾週內發布獨立的文字轉語音和語音轉文字介面。

從: 文献リンク Grok語音代理API | xAI

【社論】

xAI發布Grok語音代理API的時機在語音AI市場中意義非凡。截至2025年12月,OpenAI、Google和亞馬遜等主要科技公司正在語音代理市場展開激烈競爭,而此次發布標誌著xAI全面進軍該市場

這項技術最顯著的特點是我們完全自主地建立了整個語音堆棧,從語音活動檢測、分詞器到音訊模型,所有功能都是我們從零開始開發的,這使我們在延遲和品質方面都比傳統管道方法(透過組合外部組件)更具優勢。

定價也值得一提。每分鐘連線時間0.05美元的固定費率明顯優於競爭對手。特別是,OpenAI的即時API按輸入輸出令牌收費,因此實際運行成本通常超過每分鐘0.10美元,不到Grok價格的一半。這使得開發者更容易預測預算,在考慮大規模部署時,這是一個重要的優勢。

在 Big Bench Audio 測試中排名第一絕非誇大其詞。此基準測試經 Artificial Analysis 獨立驗證,並被公認為衡量語音代理推理能力的業界標準。平均首次音訊回應時間低於一秒,對於即時對話體驗至關重要。

多語言支援也是一個重要因素。對於旨在拓展全球業務的公司而言,能夠以母語程度使用數十種語言,並在對話中隨時切換語言至關重要。在俄語中高達 85.4% 的勝率和在西班牙語中高達 67.2% 的勝率表明,OpenAI Realtime API 在非英語國家擁有顯著優勢。然而,仔細分析盲測結果後發現,OpenAI Realtime API 在日文中更勝一籌(49.5% 對 34.2%)。了解不同語言的優點和缺點是開發者在考慮目標市場時必須重視的重要因素。

「我們與特斯拉的合作就是一個重要的例子,它證明了這項技術的實用性。這項技術已經在數百萬輛汽車上投入使用,這向開發者們證明了該技術的成熟度和可靠性。車輛狀態訪問、導航控制和實時搜索等功能的集成表明,它在其他行業也具有潛在的應用價值。”

不過,有幾點需要注意:目前還沒有獨立的語音轉文字或文字轉語音轉換接口,但這些接口計劃在未來幾週內發布。此外,雖然與 OpenAI Realtime API 規範的兼容性將簡化開發者的過渡過程,但我們還需要觀察 xAI 與其他競爭對手相比有哪些獨特之處。

這項公告表明,語音人工智慧介面不僅僅是文字輸入的替代方案,而是正在成為人機互動的新標準。預計它們將被應用於客戶支援、醫療、法律和金融等專業領域,並有可能加速整個行業的轉型。

[術語]

Big Bench Audio
此基準資料集由Artificial Analysis開發,包含從Big Bench Hard資料集中選取的1000個語音問題,用於評估語音語言模型的推理能力。它衡量語音代理在邏輯推理、導航、物件計數和布林邏輯等類別中的複雜問題解決能力。

語音活動檢測(VAD)
這項技術能夠自動從音訊訊號中偵測人聲片段。它是語音助理判斷使用者何時開始和結束說話的關鍵基礎技術。

分詞器<br>將文字或音訊分解成可供人工智慧模型處理的小單元(詞元)的技術。在語音處理中,它將音訊資料分解成有意義的單元,並將其轉換為模型可以高效處理的格式。

延遲<br>使用者輸入和回應之間的延遲。對於語音助理來說,首次音訊回應時間 (TTFA) 是一個重要的指標。延遲小於一秒被認為可以提供自然的對話體驗。

OpenAI 即時 API
OpenAI 提供的語音對話 API。它採用一種方法,使用單一模型處理從語音輸入到語音輸出的所有過程,這與傳統的管線方法(結合語音辨識、文字處理和語音合成)有所不同。

LiveKit
一個用於即時音訊和視訊通訊的開源平台。它基於WebRTC,用於建立語音代理和視訊會議應用程式。

盲測人工評估<br>一種在評估者不知道哪個模型輸出結果的情況下評估語音品質的方法。它用於基於發音、口音、韻律等進行客觀比較。

韻律
語調、節奏、重音和語速等語音特徵是自然對話中表達情感和意圖的重要元素。

[參考連結]

xAI 官方網站(外部連結)
xAI是一家由伊隆馬斯克創立的人工智慧公司,其官方網站提供產品訊息,例如Grok模型開發和語音代理API。

Grok語音代理API文件(外部)
這是 xAI 提供的 Grok 語音代理 API 的官方技術文件。其中包含如何透過 WebSocket 連線實現語音互動的說明。

xAI API 控制台(外部)
xAI API 平台是針對開發者,提供 API 金鑰建立、模型比較和使用情況追蹤。

OpenAI 即時 API (外部)
OpenAI 的語音對話 API。它使用 gpt-realtime 模型,透過單一模型處理從語音輸入到語音輸出的所有操作。

人工分析(外部)
獨立評估和比較人工智慧模型性能的第三方機構。它開發了 Big Bench Audio 基準測試。

LiveKit 官方網站(外部連結)
一個基於 WebRTC 的開源即時音訊和視訊通訊平台。

特斯拉官方網站(外部連結)
電動車製造商特斯拉是 Grok 語音代理 API 的設計合作夥伴,該 API 已安裝在數百萬輛汽車中。

ElevenLabs (外在)
一家提供人工智慧語音生成平台的公司,提供文字轉語音和語音克隆等服務。

Deepgram (外部)
一個專注於語音辨識和理解的人工智慧平台,提供即時語音轉錄API。

[參考文章]

使用 BigBench Audio 評估音訊推理(外部)
這是對人工智慧分析公司開發的 Big Bench Audio 基準測試的解釋。它包含 1000 個音訊問題,並按四個類別進行評估。

亞馬遜 Nova 2 Sonic(外部)簡介
亞馬遜發布了 Nova 2 Sonic 型號,重點介紹了其多語言語音功能,該功能允許單一語音播報多種語言。

比較 ElevenLabs 對話式 AI 和 OpenAI 即時 API (外部)
ElevenLabs 將他們的公司與 OpenAI 進行了比較,結果表明 OpenAI Realtime API 的定價約為每分鐘 0.06 美元。

Grok語音代理API文件(外部)
xAI 的官方技術文件。文件解釋說,它支援 100 多種語言,並針對企業應用程式場景進行了最佳化。

x.ai 發布開發者的 Grok 語音代理 API (外部連結)
一篇報導 xAI 的 Grok 語音代理 API 發布的文章,其中特斯拉作為設計合作夥伴發揮了關鍵作用。

[編者註]

語音人工智慧領域目前正處於一個重要的轉折點。 xAI 的出現加速了價格競爭和技術創新,使我們離日常使用語音助理未來更近了一步。

您希望在哪些情況下使用語音AI?例如客戶支援、內部服務台,或其他更具創意的應用程式?這次發布的亮點不僅在於技術的進步,更在於它降低了開發者的成本。過去只有大型企業才能實現的高品質語音交互,如今也逐漸被中小企業和新創公司所接受。

然而,不同語言之間的表現差異也同樣重要。在考慮拓展日本市場時,日語表現評估也將是決策的重要因素。讓我們繼續關注這項技術的普及化將催生哪些新的服務。