OpenAI 計劃於 2026 年推出語音優先設備 | 喬納森·艾維展望無螢幕未來

2026-01-02

OpenAI 計劃於 2026 年推出語音優先設備 | 喬納森·艾維展望無螢幕未來

根據 The Information 1 月 1 日報道，OpenAI 在過去兩個月裡一直在召集多個工程、產品和研究團隊，對其語音模型進行全面改造，為大約一年後推出語音優先的個人設備做準備。

智慧音箱目前已進入美國超過三分之一的家庭，Meta 公司在其 Ray-Ban 智慧眼鏡中推出了一項使用五麥克風陣列的功能。

今年6月，Google開始試驗「音訊概述」功能，可將搜尋結果轉化為對話式摘要。特斯拉正在將xAI的聊天機器人Grok整合到其車輛中。 Sandbar和由Pebble創始人Eric Migicovsky領導的公司計劃在2026年推出他們的AI智慧戒指。 OpenAI的新語音模型預計將於2026年初發布。

蘋果前設計總監喬納森·艾維透過他創立的公司io加入了OpenAI的硬體業務部門。 OpenAI在5月以65億美元收購了io。

從： OpenAI 重倉音訊領域，矽谷向螢幕宣戰

【社論】

這則新聞標誌著科技業一次重大的典範轉移：從以螢幕為中心的介面轉向以語音為中心的介面。這不僅僅是一種技術趨勢，它代表著對人與電腦關係的一次根本性重新思考。

OpenAI之所以決定徹底改造其語音模型，是因為目前語音AI有其限制。傳統的語音助理採用「隊列」系統，等待用戶說完才做出回應。然而，在人與人之間的自然對話中，助手會在對方說話時點頭附和，並在適當的時候進行插話。 OpenAI的目標是創建一個能夠重現這種類人對話流暢性的語音模型。

值得注意的是，這種趨勢正在各個產業蔓延。 Meta 最近在其 Ray-Ban 智慧眼鏡中推出了一項新功能，該功能利用五麥克風陣列，使用戶在嘈雜的環境中也能輕鬆聽清對話——本質上是將用戶的臉部變成了一個定向監聽設備。 Google於 2025 年 6 月開始測試「音訊概覽」功能，該功能可將搜尋結果轉化為對話式摘要。特斯拉正在將 xAI 的 Grok 整合到其車輛中，以實現駕駛時的自然對話。

然而，這一趨勢也存在一些需要謹慎考慮的面向。如何在「無螢幕」的理想與實用性之間取得平衡極為困難，新創公司Humane AI Pin就曾因無螢幕穿戴裝置而耗資數億美元，成為警示案例。此外，人們對持續錄影設備（例如Friend AI吊墜）的隱私擔憂仍然存在。

有趣的是，蘋果前首席設計師喬納森·艾維深度參與了這個計畫。頗具諷刺意味的是，這位創造了iPhone——螢幕時代的象徵——的人，如今卻致力於擺脫螢幕。艾維優先考慮降低使用者對設備的依賴性，並將語音優先設計視為糾正以往產品缺陷的契機。

從技術角度來看，語音介面具有明顯的優勢。由於無需使用者註視螢幕，因此可以在雙手被佔用的情況下使用，例如開車、烹飪或運動時。語音介面還有望顯著提升視障人士的使用體驗，並有助於緩解螢幕疲勞（數位眼睛疲勞）。

然而，語音介面也存在一些挑戰：使用者難以一次掌握複雜訊息，效率可能不如視覺介面。此外，在公共場所使用語音介面可能會引發社交摩擦，隱私問題也難以避免。

值得注意的是，預計2026年將有多款人工智慧戒指問世。像是Sandbar以及Pebble創辦人 Eric Migicovsky（Eric Migicovsky）開發的設備，提出了一種全新的互動方式：「與你的手對話」。這些設備的成功不僅取決於其技術是否完善，還取決於社會對「始終在線的語音助理」的接受程度。

這項舉措有可能成為智慧型手機問世以來最大的轉捩點。然而，與其說智慧型手機將被完全取代，不如說更現實的是一種“多模態未來”，即根據應用場景選擇合適的互動介面。從2026年起，在家使用智慧音箱、外出時配戴智慧眼鏡、在需要集中註意力時配戴人工智慧戒指，或許會成為常態。

innovaTopia想要強調的是，這種改變不僅是一項技術創新，更是一次重新定義人與科技關係的嘗試。它既帶來了擺脫螢幕束縛的自由，也帶來了持續在線的風險。我們需要冷靜地評估這兩方面，並思考科技如何真正促進人類的演化。

[術語]

語音優先設備<br>主要為語音互動而設計的設備，沒有螢幕作為主要介面。使用者透過語音指令操作設備，並透過語音接收設備的回應。它們的特點是沒有螢幕，或僅被設計為輔助介面。

5麥克風陣列<br>這項技術利用多個麥克風來增強來自特定方向的聲音或消除雜訊。 Meta的Ray-Ban智慧眼鏡就採用了這項技術，即使在吵雜的環境中也能讓對話更容易聽清楚。

語音模型<br>一種能夠產生和理解人類語音的人工智慧模型。 OpenAI 正在開發一種新的語音模型，該模型能夠應對語音中斷，並在用戶說話時做出回應，從而實現更自然的對話。

智慧音箱<br>配備語音助理、可透過語音指令控制的音箱。它可以播放音樂、搜尋資訊、控制智慧家庭設備等等。目前，美國超過三分之一的家庭都擁有智慧音箱。

[參考連結]

OpenAI （外部）
開發了 ChatGPT 的人工智慧公司。該公司於 2025 年 5 月以 65 億美元收購了 Jony Ive 的 io，並計劃於 2026 年推出一款語音優先設備。

資訊（外部）
這家付費新聞媒體專注於科技業。憑藉其自身的新聞報道網絡，它率先報道了OpenAI的語音策略。

Google Labs （外部）
一項允許您在 Google 正式發布之前試用其實驗性功能（例如音訊概覽）的計畫。

人道的（外部）
由前蘋果員工創立的人工智慧硬體新創公司。該公司開發了無螢幕的“AI Pin”，但於2025年被惠普收購。

沙洲（外）
一家新創公司正在開發一款名為「Stream」的語音控制人工智慧戒指，該戒指具有記筆記和媒體控制功能。

[參考文章]

喬納森·艾維將領導OpenAI的設計工作，此前OpenAI以65億美元收購了他的公司（外部消息）。
OpenAI 於 2025 年 5 月以 65 億美元收購了 Jony Ive 的 io 公司。這支 55 人的團隊將加入 OpenAI，並計劃於 2026 年推出首款設備。

Google 測試搜尋查詢的音訊概覽（外部）
Google將於 2025 年 6 月 13 日在搜尋實驗室開始試驗音訊概述功能，使用最新的 Gemini 模型產生音訊摘要。

Meta Ray-Ban Display：搭配 EMG 手環（外接）的 AI 眼鏡
Meta Ray-Ban Display 將於 2025 年 9 月發布。此顯示器安裝在右側鏡片上，並配備 5 個麥克風陣列，具有對話聚焦功能。

OpenAI 在裝置發布前加大音訊 AI 研發力道（外部報導）
OpenAI 正在加速改進其語音 AI 模型，整合多個團隊，為大約一年後推出個人裝置做準備。

報導：OpenAI計劃在第一季推出新的音訊模型（外部連結）
OpenAI 計劃在 2026 年第一季發布一款新的語音模型，實現更自然的語音生成和即時對話處理。

[編者註]

你如何看待未來只需語音就能獲取資訊而無需拿出智慧型手機的情景？為了這種便利，我們會失去什麼？

我們每天長時間面對螢幕，都會感到疲憊。語音優先設備或許有助於緩解這種疲勞。然而，有些人可能不喜歡被持續監聽的環境。

2026年，市面上將出現多種語音設備。您會在哪些情況下使用語音介面？或者您仍然更喜歡螢幕？我們很想聽聽您的真實想法。

By 閱讀

Updated 2026-01-02

By閱讀