歌詞對位指的是,將文字歌詞與音訊中實際演唱的時間點自動對齊的技術;而歌詞轉錄則是指,從演唱音訊中直接辨識出歌詞文字,即針對歌唱聲的語音辨識。本篇將整理出部分主題中,從早先的隱藏式馬可夫模型時代,到較近代的深度學習與大型預訓練模型時期中,部分可能較為重要的資料集與論文,並做簡單的解說。

可能較為重要的資料集列出如下:

可能較為重要的論文列出如下:

歌詞對位與歌詞轉錄的評估指標,並不像分類任務那樣直接使用 accuracy 或 F1,而是有一套專門針對時間對齊與文字辨識的指標,因此也說明如下。其中,歌詞對位的指標通常使用 mir_eval 函式庫來計算;歌詞轉錄的指標則源自自動語音辨識(Automatic Speech Recognition, ASR)領域,通常使用 JiWER 等工具計算: