
美國松下研發公司和松下控股公司與加州大學洛杉磯分校的研究人員合作開發了彌散視覺語言模型「LaViDa」。
LaViDa 是一款多模態人工智慧,它使用擴散模型產生句子,在保持相同準確率的同時,生成速度約為現有自回歸方法的兩倍。傳統的自回歸方法存在文字量增加時產生時間也隨之增加的問題,而 LaViDa 透過使生成速度可變來解決這個問題。
這項技術已被 NeurIPS 2025 接受,NeurIPS 2025 是一個頂級的 AI/ML 會議,將於 2025 年 12 月 3 日至 5 日在美國聖地亞哥舉行。
松下集團計劃利用這項技術將各種現場文件格式化為統一格式,並加速引入人工智慧代理。
從:
松下控股公司開發了 LaViDa,這是一個基於擴散的視覺語言模型





【社論】
松下公司的 LaViDa 代表了人工智慧技術領域的重要典範轉移。目前,主流的自回歸模型以「從左到右逐個字元」的方式產生句子。雖然這與人類寫作句子的過程類似,但它有一個結構性限制:句子越長,處理時間就越長,呈線性成長。
LaViDa 使用的擴散模型是一項成熟的影像生成 AI 技術,例如「穩定擴散」。它類似於從雜訊中逐步產生清晰影像,能夠並行地同時恢復整個被掩蔽的標記。這種平行處理方式使得產生速度比傳統方法快約兩倍。尤其值得注意的是,速度和精度之間的權衡可以靈活調整,使用者可以根據應用場景選擇「快速但粗糙的輸出」或「慢速但高精度的輸出」。
其真正的創新之處在於「結構化文字生成」。自回歸模型難以輸出特定格式的文本,例如詩歌或JSON格式,即使在提示中指定了詳細的規則,它們也經常識別錯誤。擴散模型在生成文字時忽略了文字的整體結構,因此它們在處理此類受限任務時表現出色。
松下計畫利用這項技術在公司內部部署人工智慧代理。透過將分散在工作場所的各種文件自動轉換為統一格式,可以創建一個易於人工智慧理解的環境。製造業中海量技術文件和業務手冊的標準化一直是長期存在的挑戰。 LaViDa有望成為解決這一問題的實用方案。
此方法被NeurIPS 2025採用,證明了其學術前沿性已獲得國際認可。迄今為止,將擴散模型完全應用於多模態人工智慧的案例寥寥無幾,因此可以說LaViDa開創了一個新的研究領域。隨著未來其他研究機構和公司應用此方法,人工智慧的表達能力和效率有望進一步提升。
[術語]
擴散模型
這是一種從噪音中逐步產生資料的機器學習方法。它廣泛應用於影像生成人工智慧領域,最終輸出是透過從隨機雜訊狀態中逐步去除雜訊而獲得的。該方法能夠進行並行處理,並以其產生高品質結果的能力而聞名。
自迴歸模型
這是一種按順序產生資料的方法,將前一步的輸出作為下一步的輸入。在文字生成中,句子是從左到右逐個字元產生的。許多大規模語言模型,例如 GPT,都使用這種方法。
多模態人工智慧
它是一款人工智慧系統,能夠同時處理和理解多種類型的數據,包括圖像、文字和音訊。與只能處理單一模態資料的人工智慧相比,它能夠以更接近人類的方式理解資訊。
令牌
這些是文字為了方便處理而被分割成的最小單元。它們包括單字、子詞和字符,而人工智慧模型正是以這些詞元單元為單位來處理和生成句子。
注意機制
這是 Transformer 架構的核心技術,它計算每個輸入資料的重要性,並透過專注於高度相關的資訊來實現高精度。
神經資訊處理系統會議 (NeurIPS)
這是全球領先的機器學習和計算神經科學國際會議。該會議每年舉辦一次,展示人工智慧領域的前沿研究成果。它以極其嚴格的同行評審流程而聞名,論文接收率僅為20%左右。
[參考連結]
Panasonic×AI 官方網站(外部連結)
這是介紹松下人工智慧研發活動的官方網站。網站內容涵蓋包括LaViDa在內的前沿人工智慧技術資訊。
LaViDa 論文 (arXiv) (外部)
這篇學術論文詳細介紹了 LaViDa 的技術細節,並詳細介紹了在 NeurIPS 2025 上採用的研究成果。
Panasonic×AI Official X(原 Twitter) (外部)
這是松下人工智慧研究最新資訊的官方帳號,並發布研究成果。
加州大學洛杉磯分校(UCLA) (外部連結)
我們的合作研究夥伴是一所世界一流的研究型大學,也是人工智慧研究中心之一。
NeurIPS 2025 官方網站(外部連結)
人工智慧和機器學習領域首屈一指的國際會議將於 2025 年 12 月 3 日至 5 日在聖地牙哥舉行。
[參考文章]
使用擴散視覺語言模型(外部)開發了多模態人工智慧「LaViDa」。
松下日本官方新聞稿報告了 LaViDa 的技術特性和 NeurIPS 的應用。
LaViDa:一種用於多模態理解的大擴散語言模型(外部連結)
LaViDa 的一篇學術論文詳細介紹了將擴散模型應用於多模態人工智慧的方法。
松下高清技術將多模態人工智慧的生成速度提高了一倍(外部)
ITmedia MONOist報告。文章闡述了LaViDa的技術創新及其在工業應用方面的潛力。
[編者註]
我發現擴散模型現在被應用於文字生成領域,這非常有趣,因為這項革新圖像生成的技術現在也即將革新語言理解領域。
如果工作和日常生活中處理的材料和文件能夠自動轉換成人工智慧更容易讀取的格式,將會帶來哪些可能性?這不僅能提高工作效率,還能挖掘出以前被埋沒的知識和技能。讓我們共同見證人工智慧將如何改變我們的工作方式。