透過 Amazon Nova Sonic 革新您的語音通話體驗 | 變革呼叫中心的電話基礎設施 透過 Amazon Nova Sonic 革新您的語音通話體驗 | 變革呼叫中心的電話基礎設施

透過 Amazon Nova Sonic 革新您的語音通話體驗 | 變革呼叫中心的電話基礎設施

透過 Amazon Nova Sonic 革新您的語音通話體驗 | 變革呼叫中心的電話基礎設施

Amazon Nova Sonic 是 Amazon Bedrock 上提供的語音對語音 AI 模型,旨在透過電話基礎設施實現即時語音互動。

企業可以將 Nova Sonic 與現有的基於 SIP 的 PBX、雲端電話服務供應商(例如 Vonage、Twilio、Genesys 和 Amazon Connect)以及開源框架(例如 Pipecat 和 LiveKit)結合,從而建立呼叫中心自動應答系統、IVR 替代方案、接待員和用於外呼的 AI 語音代理。這些整合始終使用應用程式伺服器作為中間點,透過 SIP、Webhook 或 WebRTC 接收呼叫媒體,並透過 Amazon Bedrock 的雙向串流 API 連接到 Nova Sonic 以橋接雙向音訊串流。

此外,該平台還提供了一個使用 Java/Node.js 的 SIP 網關,以及與 Vonage Voice API、Twilio 和 Genesys Cloud 的整合範例,從而可以逐步將 AI 語音代理引入到從傳統 PBX 到雲端原生 WebRTC 應用程式的各種系統中。

從: 文献リンク建立 AI 語音應用程式:Amazon Nova Sonic 電話整合指南

【社論】

Amazon Nova Sonic是建立以語音為核心的對話體驗的技術,它基於現有的電話基礎設施。透過即時語音互動而非文字回复,我認為「AI 接聽電話」在技術和營運層面上終於成為現實。

關鍵的技術層面在於,無論選擇哪種整合模式,「應用程式伺服器」始終處於架構的核心。它將 SIP、Vonage、Twilio、Genesys 和 LiveKit 等各種平台與 Amazon Bedrock/Nova Sonic 連接起來,並聚合語音串流轉換、會話維護以及 CRM 和日曆整合等業務邏輯。從開發者的角度來看,AWS 提供了多種參考架構來解決「電話」與「LLM/語音模型」之間介面設計的難題。

本指南的獨特之處在於,它並非建議單一的「正確」配置,而是針對各種現有的電話環境(從傳統PBX到雲端PBX再到WebRTC框架)提供具體的實施方案範例。無法擺脫現有SIP網路的公司可以從Java/Node.js SIP網關入手;已經在使用Vonage、Twilio或Genesys Cloud的組織可以從Webhook整合入手;而新產品則可以從基於Pipecat或LiveKit的「原生AI語音應用」入手。

然而,日本開發者需要注意的一點是Nova Sonic支援的語言。截至2025年11月,Nova Sonic支援英語、西班牙語、法語、義大利語和德語,但尚未支援日語。為了在日本全面推廣使用,開發者可能需要等待日語支持,或主要用於海外基地或提供內部支持(多語言支援服務台)。

從影響角度來看,它可能會顯著改變互動式語音應答(IVR)在呼叫中心的角色。 Nova Sonic 無需使用者手動點擊按鈕瀏覽選單,即可從一開始就用自然語言識別客戶需求,並根據需要將他們轉移到具備對話上下文的人工客服。因此,角色分工將成為現實,例如人工智慧在非工作時間和高峰時段負責處理主要回應,而人工客服則專注於更複雜的案例和情感支援。然而,決定人工智慧可以承擔多少工作的治理設計是不可避免的。

積極方麵包括多語言支援、能夠考慮語氣和情緒的回應,以及基於通話內容結構化資料的分析和回饋機制。另一方面,隨著語音人工智慧在電話管道的滲透日益加深,身份冒用、詐欺以及錄音資料被不當二次利用的風險也隨之增加。關於隱私和通訊法規相關問題,例如如何明確指出通話對方是人工智慧、如何處理通話日誌以及模型訓練的使用範圍等,各國和各行業制定相關指南可能仍將至關重要。

從長遠來看, 「電話就意味著有人接聽」這一前提或許會被改寫。我們可以想像這樣一個世界:除了公司主要電話號碼和呼叫中心之外,我們還能在電話網路上擁有個人人工智慧秘書以及針對醫療保健、金融、物流等行業的專屬語音助理。身為 innovaTopia 的撰稿人,我希望繼續關注這項技術的最新進展,不僅將其視為一項提高效率的技術,更要從「人與人工智慧如何透過語音共存」的角度來探討。

[術語]

亞馬遜新星音速
這是一個基於 Amazon Bedrock 的語音生成式人工智慧模型,旨在直接從語音輸入生成語音輸出,並建立即時對話體驗。截至 2025 年 11 月,該模型暫不支援日語(僅支援英語、西班牙語、法語、義大利語和德語)。

會話發起協定(SIP)
它是一種信令協議,用於建立、修改和終止互聯網上的語音和視訊通話等會話,許多 IP 電話和 PBX 都使用它。

即時傳輸協定(RTP)
它是一種透過 IP 網路傳輸即時媒體(例如音訊和視訊)的協議,並廣泛與 SIP 結合使用,以傳輸電話通話的音訊串流。

互動式語音應答(IVR)
這是一個通用術語,指的是能夠根據電話按鍵和語音輸入提供自動回覆和選單引導的系統,這項技術已被用作傳統呼叫中心的入口點。

PBX(專用交換器)
它是一種用於控制公司或組織內部和外部呼叫的電話交換系統,在本地傳統電話環境中廣泛使用。

WebRTC
它是開放技術堆疊和一組用於瀏覽器和行動應用程式之間即時音訊、視訊和資料通訊的 API 的通用術語,也是 LiveKit 和其他產品的基礎技術。

[參考連結]

Amazon Nova Sonic(官方) (外部)
官方產品頁面介紹了語音對語音模型 Amazon Nova Sonic 的功能、用例、定價等。

Amazon Bedrock(官方) (外部)
概述頁面,介紹完全託管的生成式 AI 基礎架構服務,該服務可讓您透過 API 使用多個生成式 AI 模型,包括 Amazon Nova 系列。

Vonage(官方) (外部)
一個雲端通訊平台,提供語音通話、訊息傳遞、視訊等 API,允許透過語音 API 整合 AI 代理。

Twilio(官方) (外部)
一種雲端服務,可透過 API 提供語音、簡訊、電子郵件和視訊等通訊功能,使您能夠以程式設計方式建立客戶聯繫工作流程。

Genesys Cloud CX(官方) (外部)
一個基於雲端的平台,提供全通路聯絡中心功能,包括語音和聊天,並整合路由、分析和勞動力管理。

Pipecat(官方) (外部)
這是一個基於 Python 的開源框架,可讓您建立語音和文字對話代理,並允許您使用管道定義靈活地設計處理流程。

LiveKit(官方) (外部)
它是用於建立基於 WebRTC 的即時音訊和視訊應用程式的開源平台,提供可擴展、低延遲的通訊基礎設施。

[參考影片]

[參考文章]

使用亞馬遜 Nova Sonic 語音轉語音模型(外部)
這是 Amazon Nova Sonic 語音對語音模型的官方文檔,解釋了支援的語言、延遲特性以及如何使用雙向串流 API。

Amazon Nova Sonic 新增法文、義大利文和德文支援(外部連結)
這是一份正式公告,介紹了 Amazon Nova Sonic 新增的法語、義大利語和德語支持,以及該功能在哪些地區可用,並且是一份強化多語言支援背景的文件。

亞馬遜攜Nova Sonic進軍即時AI語音競賽,Nova Sonic是一款能夠感知情緒的統一語音模型(外部報告)。
本文總結了 Nova Sonic 在即時語音 AI 市場中的定位,將其與競爭模型進行了比較,重點介紹了其情感和語調理解能力,有助於了解市場趨勢。

[編者註]

電話另一端的人究竟是真人還是人工智慧,可能會變得越來越難以分辨。我認為,這一趨勢的前沿領域之一是“語音人工智慧直接連接到電話網路”,例如我們在本文中介紹的亞馬遜Nova Sonic。

我相信在您的工作和專案中,有很多情況下您需要使用語音進行溝通,例如呼叫中心、預訂接待、內部服務台、銷售電話等等。我們不想完全取代人工,而是希望與您合作,共同探討一種舒適的溝通方式,讓人工和人工智慧能夠共同創造相同的通話體驗。