線上教材：音樂資訊分析

在音樂研究領域，音源分離的具體目標，是將一段混合錄音中的全部或部份音源分離出來，例如從一首完整的歌曲中分別提取出人聲、鼓組、貝斯與其他樂器的軌道。本篇將整理出此主題中，從早先以獨立成分分析(Independent Component Analysis, ICA)與非負矩陣分解(Non-negative Matrix Factorization, NMF)為代表的訊號處理與統計學習時代，到卷積神經網路與端對端波形域模型崛起的深度學習時期，再到目前以 Transformer 架構為核心的前沿研究階段中，部分可能較為重要的資料集與論文，並做簡單的解說。

可能較為重要的資料集列出如下：

MIR-1K 發表於 2009 年，共有 1,000 個約 10 秒鐘的錄音片段，源自於數名非職業歌手的一百餘首華語卡拉 OK 歌曲錄音而成；每個錄音片段的左聲道為伴奏，右聲道為人聲。此資料集是早期人聲分離研究的標準測試集；唯缺點是曲風單一（華語流行歌），且音源只有伴奏與人聲兩軌。由於資料集亦含有旋律標記，因此除了音源分離外，亦經常被使用於旋律抽取之研究。

MedleyDB 首版發表於 2014 年，次版發表於 2016 年，分別含有一百餘首與接近兩百首樂曲，每首包含了超過兩軌的錄音，並且在資料集中有多種音樂風格，如搖滾、爵士、民謠等。由於資料集除了多軌錄音之外，亦含有旋律等標記，因此除了音源分離外，亦經常被使用於樂器分類與旋律抽取等研究。

MUSDB 首版發表於 2017 年，高音質版釋出於 2019 年；資料集中共有 150 首歌曲，每首有 vocals、drums、bass、other 四軌，曲風包含多種西方之流行、搖滾、電子音樂等。

Slakh2100 發表於 2019 年，內容為以 MIDI + 軟體合成器(Native Instruments)合成出之兩千餘首多軌音樂；此資料集的音色雖然為合成音，但解決了真實錄音資料量不足的問題，並在資料擴充與預訓練上被廣泛應用。

可能較為重要的論文列出如下：

P. Smaragdis, J. Brown, "Non-negative matrix factorization for polyphonic music transcription," in 2003 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (IEEE Cat. No. 03TH8684), 2003, pp. 177–180.：此論文首次將 NMF 應用於多聲部音樂中的音符轉錄與音源分離，並奠定了 NMF 在音樂分析中的基礎地位，至今仍是可解釋性最強的無監督分離方法之一。

NMF 之目標為，將一矩陣 V 分解為 W 和 H，使得 V 大略等於 W * H，且三個矩陣的元素皆為非負值。

C. Hsu, J. Jang. "On the improvement of singing voice separation for monaural recordings using the MIR-1K dataset," in IEEE transactions on audio, speech, and language processing, vol. 18, no. 2, pp. 310–319, 2009.：此論文發表了 MIR-1K 資料集，並同時加入了音高與諧波(harmonic)資訊以改良分離品質。

Huang, P., et al, "Singing-Voice Separation from Monaural Recordings using Deep Recurrent Neural Networks.," in ISMIR, 2014, pp. 477–482.：此論文率先將 Deep Recurrent Neural Networks (DRNN)應用於人聲分離，並確立了「頻域遮罩估計」的深度學習框架，且此深度學習方法之分離品質，相較傳統 NMF 方法有大幅之提升。

頻域遮罩估計(frequency mask estimation)：透過估計各音源在頻譜上所佔比例的遮罩，進而從混合頻譜中還原出個別音源。

Jansson, A., et al, "Singing voice separation with deep u-net convolutional networks," in 18th International Society for Music Information Retrieval Conference, 2017.：此論文將電腦視覺中的 U-Net 架構移植到頻譜圖處理，以編碼器逐層萃取語義特徵，並透過 skip connections 連結解碼器讓模型同時保有高層語義與低層細節，並直接在 STFT 頻譜上估計人聲遮罩。此論文使 U-Net 架構成為此後音樂分離模型的標準骨幹之一，且在 MIR-1K 等資料集上達到當時最先進的效果。

(Open-unmix) Stoter, F., et al. "Open-unmix: a reference implementation for music source separation," in Journal of Open Source Software, vol. 4, no. 41, pp. 1667, 2019.：此論文提出以 Bi-LSTM 為核心的頻域分離模型，並公開了完整的訓練程式碼與預訓練模型，建立了可重現的基準，帶動了研究社群對可重現性的重視，且至今仍常被用作比較基準之一。

(Spleeter) Hennequin, R., et al. "Spleeter: a fast and efficient music source separation tool with pre-trained models," in Journal of Open Source Software, vol. 5, no. 50, pp. 2154, 2020.：此論文提供了一個以卷積 U-Net 為架構，在大規模私有資料上訓練，可用於 2-stem（人聲及伴奏）、4-stem、5-stem 的預訓練分離模型，且有簡單的 API 介面，使非專業用戶也能輕鬆使用。

(HTDemucs) S. Rouard, F. Massa, A. Defossez, "Hybrid transformers for music source separation," in ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023, pp. 1–5.：此論文在其前一代模型 Hybrid Demucs 的架構基礎上，於編碼器中段插入跨域 Transformer 模組，將 Transformer 架構成功引入時域上的音樂分離，同時作用於時域與頻域兩個分支，並在 MUSDB18-HQ 達到當時的最佳品質，且是最廣為使用的高品質開源分離工具。

(BS-RoFormer) Lu, W., et al, "Music source separation with band-split rope transformer," in ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2024, pp. 481–485.：此論文以 BSRNN 的頻帶切割為前端，將後端的 RNN 替換為階層式 Transformer，分別在時間軸與頻帶軸交替建模，並引入旋轉位置編碼（RoPE）來穩定訓練以及提升效果。輸入為複數 STFT 頻譜，輸出為複數遮罩以還原各音源。

對於各種方法中，除了模型本身以外，其可能依賴的資料特性，或用到的前處理或後處理技巧等，整理如下：

STFT 參數選擇：短時傅立葉轉換(STFT)是頻域方法的入口，其中最關鍵的兩個參數是 window size 與 hop size。視窗越長，頻率解析度越高，但時間解析度越低，對快速變化的打擊樂器（如鼓組）較不利；視窗越短則相反，對瞬態訊號較為敏感，但對頻率細節則較為模糊。多數音樂分離論文採用 2048 點視窗搭配 512 點跳躍（即 75% 重疊），在 44.1kHz 下，時間解析度約為 12ms (512/44.1k)。近期亦有模型則採用更大的視窗尺寸（4096 點），以捕捉更細緻的低頻資訊。

音訊輸入聲道數：早期研究多針對多聲道錄音，即利用麥克風陣列之間的時間差與振幅差，來定位並分離音源，在音源數量不超過麥克風數量的情況下，問題會相對地良好確定(well-determined)。現代深度學習方法則主要處理單聲道輸入，因為這更符合處理串流音樂等實際應用場景，但欠定(Underdetermined)程度也較高，需要完全依賴模型從頻譜統計特性中，學習各音源的特徵。

Wiener Filtering 後處理：Wiener filter 是最常見的後處理步驟，概念是利用統計模型估計出每個時頻點的軟性遮罩；相較於直接使用音源分離模型模型輸出的遮罩，Wiener filter 可以更有效地抑制干擾並降低假影。Open-Unmix 等先輸出頻譜的模型，相當適合嘗試 Wiener filter 後處理，而 Demucs 系列等直接在波形域輸出的模型，則可能需要不同的後處理方式。

輸出音訊重建：在頻域進行分離的方法，通常只估計強度遮罩(magnitude mask)，而相位(phase)則直接沿用原始混合訊號的相位，再以 iSTFT 還原波形。這個假設在音源能量懸殊的情況下會造成相位干擾，因此近年較新的模型（如 BS-RoFormer 等）改為同時估計複數遮罩（complex mask），來直接預測幅度與相位，以減少相位引起的失真。

此外，由於音源分離的評估指標，並不是常見的 accuracy、precision，或 recall 等等，因此也說明如下。以下的指標通常使用 mir_eval 函式庫來計算，所有指標的單位均為分貝（dB），且數值愈高愈好：

SDR（Signal-to-Distortion Ratio，訊號失真比）：衡量分離後音源與真實音源之間的整體差異，涵蓋所有類型的失真，包含其他音源的干擾、演算法產生的假影等。是最常被引用的綜合性評估指標，數值越高代表分離品質越好，一般認為超過 8–10 dB 為可接受的分離品質。

SIR（Signal-to-Interference Ratio，訊號干擾比）：衡量其他音源對目標音源造成的干擾程度，例如分離人聲時，鼓組或貝斯殘留的比例。SIR 高代表模型能有效抑制非目標音源的洩漏，但 SIR 高並不保證整體品質好，因為模型可能以引入假影為代價來壓低干擾。

SAR（Signal-to-Artifact Ratio，訊號假影比）：衡量演算法本身在分離過程中引入的人工假影（artifact）多寡，例如金屬聲、模糊感或不自然的頻率成分。SAR 與 SIR 之間常存在取捨關係：過度壓制干擾往往會同時產生更多假影，因此需要兩者一併觀察。

SI-SDR（Scale-Invariant SDR，尺度不變訊號失真比）：SDR 的改良版本，計算前會先對預測訊號做最佳振幅縮放，使指標對音量差異不敏感。此指標在端對端波形域模型（如 Conv-TasNet、Demucs）的訓練與評估中更為常用，因為這類模型的輸出振幅不一定與真實音源一致，若使用 SI-SDR 則能更公平地反映訊號形狀的相似程度。

NSDR (Normalized SDR)：以混合訊號本身的 SDR 為基準，計算分離後的 SDR 增益（即 SDR_separated - SDR_mixture），以消除不同歌曲因混合條件不同所帶來的基準差異，使跨曲目、跨資料集的比較更為公平，是 MIR-1K 等早期資料集評測時的慣用指標。

除了上述的將單軌音樂分離還原為多軌以外，其他可能與音源分離較有關的研究方向整理如下：

查詢式音源分離：讓使用者在推論時以一段參考音訊、文字描述或 MIDI 來指定目標音源，模型則動態調整分離目標。目前的相關研究包含 AudioSep 等。

擴散模型應用：將生成式擴散模型(diffusion model)引入音源分離，以條件式去噪的方式逐步從混合訊號中還原目標音源。優點是生成品質高、假影少，且天然具備不確定性估計能力；缺點是推論速度慢，目前仍難以達到即時處理。目前的相關研究包含 Multi-Source Diffusion Models for Simultaneous Music Generation and Separation 等。

音源分離與其他任務綜合的多任務學習：將音源分離與旋律抽取、樂器識別、或歌詞辨識等任務一起訓練，有機會讓各任務互相提供監督訊號。例如分離品質好的模型，往往對音高與音色有更深的理解，而旋律標記則可以引導模型更精準地定位人聲頻帶，兩者有機會相輔相成。

即時與低延遲分離：多數高品質模型（HTDemucs、BS-RoFormer）的推論延遲達數秒，無法用於現場演出或即時監聽。近年開始有研究針對因果模型（causal model，只使用過去的訊號）進行設計，嘗試在品質與延遲之間取得平衡，是具有強烈產業需求驅動的研究方向。目前的相關研究包含 Improving Real-Time Music Accompaniment Separation with MMDenseNet 等。