在音樂研究領域,音源分離的具體目標,是將一段混合錄音中的全部或部份音源分離出來,例如從一首完整的歌曲中分別提取出人聲、鼓組、貝斯與其他樂器的軌道。本篇將整理出此主題中,從早先以獨立成分分析(Independent Component Analysis, ICA)與非負矩陣分解(Non-negative Matrix Factorization, NMF)為代表的訊號處理與統計學習時代,到卷積神經網路與端對端波形域模型崛起的深度學習時期,再到目前以 Transformer 架構為核心的前沿研究階段中,部分可能較為重要的資料集與論文,並做簡單的解說。

可能較為重要的資料集列出如下:

可能較為重要的論文列出如下:

對於各種方法中,除了模型本身以外,其可能依賴的資料特性,或用到的前處理或後處理技巧等,整理如下:

此外,由於音源分離的評估指標,並不是常見的 accuracy、precision,或 recall 等等,因此也說明如下。以下的指標通常使用 mir_eval 函式庫來計算,所有指標的單位均為分貝(dB),且數值愈高愈好:

除了上述的將單軌音樂分離還原為多軌以外,其他可能與音源分離較有關的研究方向整理如下: