2026-01-02

音樂×科技 #04 「湯姆的餐廳」—MP3之母

走廊上響起了一聲聲音。

那是1989年。卡爾海因茨·勃蘭登堡正在德國埃爾蘭根的弗勞恩霍夫研究所攻讀博士學位，他正在完善一個音訊壓縮演算法。走廊盡頭的某個地方傳來收音機的吵雜聲，那是蘇珊娜‧維加演唱的《湯姆的餐廳》。

「我當時震驚了，」布蘭登堡後來回憶道，「我意識到這種溫暖的無伴奏人聲幾乎不可能被壓縮。」就在這時，他一直在尋找的聲音——那種最難捕捉的聲音——從走廊盡頭傳來。

從那一刻起，這首長達兩分九秒、講述一位女性在餐廳享用早餐經歷的歌曲，成為了數位音樂革命的試金石。

清晨餐館，無伴奏合唱

Suzanne Vega 於 1981 年或 1982 年創作了這首歌。故事發生在曼哈頓百老匯大街和 112 街拐角處的 Tom's 餐廳，這是她在巴納德學院讀書時，有一天早上等朋友時親眼目睹的場景。

雨聲、咖啡香、一位正在閱讀的女士、一位站在戶外的女士。附近教堂的鐘聲響起。這首歌由一系列隨意的觀察構成，唯一的旋律是哼唱的「嘟嘟嘟嘟」。沒有樂器，只有人聲。

1987 年的專輯《Solitude Standing》中收錄了兩個版本：開頭是無伴奏人聲版，結尾是器樂版。音響發燒友開始用前者來測試揚聲器，因為它展現了人聲的溫暖、微妙的語調變化和清晰的輔音。

不可能的聲音

布蘭登堡當時正在研究一種可以將音樂資料壓縮約12倍的技術。他的教授迪特·塞策夢想著擁有一個「數位點唱機」——一個可以透過ISDN線隨時點播自己喜愛音樂的未來。但以當時的頻寬而言，傳輸CD品質的音樂似乎是不可能的。

布蘭登堡試著壓縮《湯姆的餐廳》，結果「糟透了」。降低比特率後，維加的聲音失真了，而歌曲的其他部分聽起來很正常。無伴奏合唱無處遁形，根本無法與樂器融合，人聲的每一個細微差別、每一個詠噝音、每一次呼吸都經受著考驗。

布蘭登堡反覆聆聽這首歌數千遍。他不斷調整演算法，反覆播放，直到維加的聲音聽起來「溫暖」為止。他探索人耳能聽到什麼，聽不到什麼。哪些聲音可以消失，哪些聲音不該消失？所有答案都在兩分零九秒內揭曉。

一場名為標準的革命

MPEG-1 音訊層 I、II 和 III 的演算法於 1991 年獲得批准。它們於 1992 年最終確定，並於 1993 年以 ISO/IEC 11172-3 的形式發布。層 III（後來被稱為 MP3 的技術）由此誕生。

1995年7月14日，經過內部調查，最後選擇了「.mp3」檔案副檔名。當時誰也沒想到，這個小小的文件竟會徹底改變我們聆聽、傳播和擁有音樂的方式。

《湯姆的餐廳》並非專門為MP3格式而製作；它的開發過程中使用了多種音源。但如果沒有這首歌，他們或許永遠無法找到精確壓縮人聲——這種最複雜、最本質的聲音——的方法。

蘇珊娜·維加贏得了“MP3之母”的非官方稱號，她說直到2001年她才意識到自己的聲音所扮演的角色。

消失的聲音，殘存的聲音

2015 年，作曲家瑞安·馬奎爾發布了歌曲《moDernisT》，這首歌完全由歌曲《Tom's Diner》在壓縮成 MP3 格式時被移除的聲音組成。維加的聲音被降格為“幾乎聽不見的耳語”，並帶有“幽靈般的、顆粒感”的質感。

科技讓音樂變得更小——小到可以裝進口袋——但勃蘭登堡在走廊上聽到的那種溫暖，即使經過數千次的壓縮和調整，依然存在。

今天，你可以在Spotify或YouTube上收聽「湯姆的餐廳」。在那聲音中，你可以聽到一位工程師在1989年於德國實驗室裡追求的「不可能」的痕跡。

[資訊]

參考連結

弗勞恩霍夫資訊系統研究所－MP3的歷史
瑞恩·馬奎爾－MP3計畫中的幽靈

詞彙表

MP3（MPEG-1 音訊層 III）
這是一種有損（不可逆）壓縮技術，可將音訊資料壓縮至原大小的約十二分之一。它利用人耳聽覺的特性，去除難以聽見的聲音，從而減少檔案大小。該技術於1993年發佈為國際標準。

無伴奏合唱
它是純粹由人聲唱，沒有樂器伴奏的音樂。這個詞源自於義大利語，意思是「教堂風格的」。

噝音
輔音如“s”、“sh”和“z”是由牙齒和舌頭摩擦產生的高頻聲音。它們是使用音訊壓縮技術最難重現的聲音之一。

位元率
比特率（kbps）是每秒資料傳輸量的單位。 MP3 通常使用 128-320kbps 的位元率，數值越高，音質越好，但檔案也越大。

弗勞恩霍夫研究所
德國應用研究機構弗勞恩霍夫積體電路研究所 (Fraunhofer IIS) 引領了 MP3 的發展，並持續進行音訊技術的研究和開發。

By 閱讀

Updated 2026-01-02

By閱讀