FIND研究員:楊育維
人聲?鼓聲?汽車聲?不同聲音該如何分辨?
隨著科技的快速發展,音源分離技術正逐步進入人們的視野。在人工智慧(AI)與深度學習技術的推動下,音訊處理的精細度達到前所未有的高度,並被廣泛應用於音樂製作、語音增強、環境音分析等領域。然而,傳統的音源分離技術主要針對特定類別的聲音(如語音與音樂),但在開放環境中,如何從複雜的混合音訊中精準提取目標聲音,仍是一大挑戰。
【音源分離技術概述與發展】
開放域音源分離(Open-Domain Source Separation)技術的突破,使音訊處理不再受限於既定的音源類別(如人聲、樂器、環境音),更能適應未知或未分類的聲音,大幅提升應用的廣泛性與靈活度,為多元音訊處理需求提供更強大且彈性的解決方案。
隨著自媒體、短影音內容及科技應用的快速發展,聲音的應用方式正經歷顯著變革,在現代數位環境中,各類音訊資訊交錯混雜,使目標音源的精準提取成為一項關鍵挑戰,例如:
短影音創作:透過分離人聲與環境音,讓內容編輯更加靈活,或強調特定音效,以增強視聽體驗的沉浸感。
智慧監控系統:精準辨識特定聲音(如警報聲、人群喊叫聲),提升監控系統的反應速度與準確性,實現更高效能的安全監控應用。
醫療應用:運用音源分離技術提取純淨的心音與肺音,提升心雜音、心律不整、哮喘、肺炎等疾病的診斷準確性,並去除背景雜訊,精準提取關鍵聲音,助力醫療智慧化發展。
隨著對更精細、個性化的聲音處理需求日益增長,傳統的錄音、剪輯與回放技術 已難以滿足現代應用場景。因此,自然語言查詢音源分離技術(Language-queried Audio Source Separation, LASS) 應運而生,成為這場技術革新的核心。
LASS允許使用者透過自然語言描述來分離特定聲音,突破傳統依賴預設標籤的限制,使音訊處理更加靈活、直觀,更貼近多樣化的應用需求。這項技術已廣泛應用於影音製作、智慧監控、醫療輔助、語音增強等領域,為音訊處理帶來前所未有的變革與可能性。
【技術應用現況】
為了應對LASS技術在開放域音源分離中的挑戰,AudioSep模型 採用自然語言查詢作為核心機制,讓使用者僅需透過簡單的文字描述,即可從混合音訊中精準提取目標聲音,達到靈活且高效率的音源分離。
AudioSep 主要由文本編碼器(Text Encoder)和分離模型(Separation Model)兩大關鍵組件構成,其整體架構如圖1所示:
圖1 : 模型架構圖
資料來源: Xubo Liu, Qiuqiang Kong, Yan Zhao, Haohe Liu, Yi Yuan, Yuzhuo Liu, Rui Xia, Yuxuan Wang, Mark D. Plumbley, Wenwu Wang, "Separate Anything You Describe,"
文本編碼器將使用者的語言輸入(如「人聲」或「狗叫聲」)轉換為語義向量嵌入,同時,聲音輸入經短時傅立葉變換(STFT)轉換為頻譜資訊(Magnitude & Phase)。接著,模型透過語義向量與音訊特徵的匹配,利用SeparationNet深度學習網路架構進行處理,根據語義條件選擇並提取對應的音源。最後,經逆短時傅立葉變換(Inverse STFT)還原至時域波形,生成最終分離的音訊,確保輸出的音質清晰且符合語義查詢需求。
圖2 :音源分離結果可視化圖
資料來源: Xubo Liu, Qiuqiang Kong, Yan Zhao, Haohe Liu, Yi Yuan, Yuzhuo Liu, Rui Xia, Yuxuan Wang, Mark D. Plumbley, Wenwu Wang, "Separate Anything You Describe,"
上圖(圖 2)展示了AudioSep-CLAP 模型在音源分離任務中的表現,透過自然語言查詢(Text Query)提取特定音源,並可視化比較音訊混合物(Mixture)、分離結果(Separation Result)及目標音源(Target)的頻譜圖。「Text Query」代表使用者輸入的語言描述。
如「Acoustic guitar」(木吉他)或「Dog」(狗叫聲),可用於指定欲分離的音源類別。「Mixture」(混合音訊) 顯示原始的音訊組合,而「Separation Result」(分離結果)則是AudioSep-CLAP依據語言查詢所分離出的音源,最右側的「Target」(目標音源)則為真實的參考音源,作為對照。
從頻譜圖來看,模型在樂器、動物聲、環境音效與語音分離方面表現良好,例如「Acoustic guitar」(木吉他)與「Dog」(狗叫聲)的分離結果與目標音源高度吻合,展現出高準確度。在較複雜的查詢(如「Synthesized rumbling followed by an explosion」(合成的隆隆聲,伴隨爆炸聲))中,模型仍能準確提取關鍵聲學特徵,儘管可能存在少量殘餘雜訊。此外,「A woman is speaking」(女性正在說話)的結果顯示,模型在語音分離方面的表現穩定,能夠清晰地提取人聲。
整體而言,AudioSep-CLAP無需預設標籤或提供範例音訊,即可透過語言查詢靈活適應不同類型的音源,達到高效率的音訊提取。該技術適用於影音製作、智慧監控、醫療診斷及語音增強等多個領域,突破了傳統音源分離技術的限制,使音訊處理更加靈活與直觀。
【應用效益評析】
音源分離技術的突破性發展,特別是AudioSep在LASS(Language-queried Audio Source Separation)技術上的應用,使自然語言查詢驅動的音源分離不僅提升了音訊處理的靈活性,更在準確性、適用範圍與實用性 方面展現出顯著優勢。
AudioSep透過LASS技術成功突破傳統音源分離的限制,讓自然語言查詢成為音訊處理的強大工具,使音源分離更加智慧化、直觀且易於操作。無論是在影音創作、智慧監控、醫療診斷、語音增強等應用領域,該技術都展現出高度適應性與廣泛應用價值,為智慧音訊處理技術的發展奠定堅實基礎。
隨著運算資源的提升與技術的持續進步,語義驅動的音源分離將進一步拓展即時處理能力與應用範圍,為數位音訊處理帶來更多可能性,真正實現「聽見我要的聲音」。
參考資料來源:
1.Liu, X., Kong, Q., Zhao, Y., Liu, H., Yuan, Y., Liu, Y., ... & Wang, W. (2024). Separate anything you describe. IEEE/ACM Transactions on Audio, Speech, and Language Processing.
2.Tsai, K. H., Wang, W. C., Cheng, C. H., Tsai, C. Y., Wang, J. K., Lin, T. H., ... & Tsao, Y. (2020). Blind monaural source separation on heart and lung sounds based on periodic-coded deep autoencoder. IEEE Journal of Biomedical and Health Informatics, 24(11), 3203-3214.