歌詞對位指的是,將文字歌詞與音訊中實際演唱的時間點自動對齊的技術;而歌詞轉錄則是指,從演唱音訊中直接辨識出歌詞文字,即針對歌唱聲的語音辨識。本篇將整理出部分主題中,從早先的隱藏式馬可夫模型時代,到較近代的深度學習與大型預訓練模型時期中,部分可能較為重要的資料集與論文,並做簡單的解說。
可能較為重要的資料集列出如下:
- Hansen's Dataset 發表於 2012 年,此資料集共收錄 9 首英語流行歌曲,檔案時長最長達 4 分 40 秒(資料集總時長 35 分 33 秒),共標註 3,590 個單詞。錄音音訊提供有含樂器伴奏的原始混音版,以及純人聲清唱版兩種版本,並附有每個單詞的起始與結束時間戳記標註;其中,結束時間戳記僅為方便使用而設計,即實際上為下一個單詞起始時間戳記的副本,因此不納入評估使用;資料集亦提供句子層級的標註。
- Mauch's Dataset 亦發表於 2012 年,此資料集共收錄 20 首英語流行歌曲,檔案時長最長達 5 分 40 秒(資料集總時長 1 小時 19 分鐘),共標註 5,050 個單詞。錄音音訊附有樂器伴奏,並附有每個單詞的起始時間戳記標註;其中,非人聲段落並未被明確標註,而是被納入前一個單詞的範圍內,此設計係為保留與先前在此資料集上進行評估之研究的可比較性。
- DALI Dataset 的 DALI 為「a large Dataset of synchronised Audio, LyrIcs and notes」之縮寫,其首版發表於 2018 年,並於 2020 年發表擴充版本。此資料集的第一版包含 5,358 首歌曲,第二版則擴充至 7,756 首;樂曲內容涵蓋流行樂、搖滾樂等多種曲風,並以英語歌曲為主。標註資訊涵蓋歌詞文本與人聲旋律的時間戳記,並依音符、單詞、歌詞行與段落等四個層級的粒度來提供;此外,單詞層級亦包含音素序列的標註。此資料集的建構,採用師生機器學習範式(teacher-student machine learning paradigm),以卡拉 OK 遊戲社群中非專業使用者所製作的草稿標註為基礎,透過教師模型進行人聲偵測,並以正規化互相關(normalized cross-correlation)的方法,篩選出高品質配對後,再以此訓練泛化能力更強的學生模型,使資料集的建構過程與模型訓練得以相互迭代來進行最佳化。
- JamendoLyrics 初版發表於 2019 年,僅包含 20 首英語歌曲;後於 2023 年由 Spotify Research 發表擴充版本,將規模擴展至 80 首(現行版本為 79 首,因一首歌曲因內容疑慮而被移除),涵蓋英語、法語、德語與西班牙語等四種語言,並收錄多種西方音樂曲風。所有歌曲均附有樂器伴奏。標註資訊提供逐字的起始與結束時間戳記,並亦自動生成歌詞行層級的時間戳記;此外,元數據中亦記錄各首歌曲是否含歌詞重疊、多聲部演唱或非詞彙演唱(如即興哼唱)等特性,目前為歌詞對位任務的標準評估基準之一。
- N20EM 發表於 2022 年,是目前已知首個專為歌唱場景設計的多模態歌詞轉錄資料集,由新加坡國立大學 Sound and Music Computing Lab 製作。與其他資料集以商業錄音為素材的做法不同,N20EM 採用受控環境下的現場演唱錄音,同時蒐集音訊、演唱者唇部動作影像,以及演唱者配戴耳機所產生的慣性測量單元(Inertial Measurement Unit, IMU)三種模態的資料,並附有逐字歌詞標註。後續亦發布擴充版本 N20EMv2,進一步加入音符事件(note event)的標註,以支援自動音樂轉錄任務。
- MIR-MLPop 發表於 2024 年,此資料集共收錄 90 首流行歌曲,涵蓋華語、粵語與台灣閩南語三種語言,每種語言各 30 首,並皆附有人工標註的逐字時間戳記,以及字元與發音的雙重標註;其中,若歌手實際演唱的發音與字典標準發音不符,則兩者皆會被記錄於標註中。就資料集定位而言,MIR-MLPop 是目前已知首個同時涵蓋粵語與台灣閩南語的歌唱資料集,旨在支援低資源語言的歌詞轉錄與歌詞對位研究。
可能較為重要的論文列出如下:
- A. Mesaros, T. Virtanen, "Automatic alignment of music audio and lyrics," in Proceedings of the 11th Int. Conference on Digital Audio Effects (DAFx-08), 2008.:此論文是歌詞對位領域最早的奠基性論文之一。該論文提出以人聲分離為前處理步驟,再搭配基於隱藏式馬可夫模型(HMM)的語音辨識器進行歌詞對位,並對聲學模型做歌聲適應(singing adaptation)以提升辨識效果。
- Fujihara, H., et al. "LyricSynchronizer: Automatic synchronization system between musical audio signals and lyrics," in IEEE Journal of Selected Topics in Signal Processing, vol. 5, no. 6, pp. 1252–1261, 2011.:此論文提出了可自動同步複音音樂音訊與歌詞的系統,針對 CD 錄音中人聲常與伴奏重疊、無法直接套用語音對齊方法的問題,在人聲分離之上加入摩擦音偵測與填充模型(filler model),以改善對位精度。
- D. Stoller, S. Durand, S. Ewert, "End-to-end lyrics alignment for polyphonic music using an audio-to-character recognition model," in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 181–185.:此論文以改良版 Wave-U-Net 架構為基礎,直接從原始音訊預測字元機率,無須任何獨立的子模組(如人聲分離或語音辨識),訓練時也僅需行級(line-level)的弱標註,系統的平均對位誤差達到 0.35 秒,以一個數量級的幅度超越當時的最佳系統,是歌詞對位領域走向端對端深度學習的里程碑之作。
- G. Meseguer-Brocal, A. Cohen-Hadria, G. Peeters. "Creating DALI, a Large Dataset of Synchronized Audio, Lyrics, and Notes," in Transactions of the International Society for Music Information Retrieval, vol. 3, no. 1, pp. 55–67, 2020.:此論文提出的師生範式資料集建構方法,本身即具有重要的方法論貢獻,確立了以大規模半自動標註取代人工標註的新典範,為後續歌詞對位與轉錄研究提供了主要的訓練資料來源,是近年幾乎所有主流系統都會引用的基礎論文。
- S. Durand, D. Stoller, S. Ewert, "Contrastive learning-based audio to lyrics alignment for multiple languages," in ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023, pp. 1–5.:此論文捨棄傳統 ASR 框架與 CTC 損失函數,改採對比學習方法建立音訊與文字之間的跨模態嵌入表示,設計出一個更簡潔的端對端訓練流程;系統在 Jamendo 資料集上首次將平均絕對誤差壓低至 0.2 秒以下,且僅以英語資料訓練,即可泛化至其他語言。
歌詞對位與歌詞轉錄的評估指標,並不像分類任務那樣直接使用 accuracy 或 F1,而是有一套專門針對時間對齊與文字辨識的指標,因此也說明如下。其中,歌詞對位的指標通常使用 mir_eval 函式庫來計算;歌詞轉錄的指標則源自自動語音辨識(Automatic Speech Recognition, ASR)領域,通常使用 JiWER 等工具計算:
- MAE(Mean Absolute Error,平均絕對誤差):計算所有單詞起始時間戳記的預測值與真實值之間的絕對差值的平均,單位通常為秒,數值愈低愈好,是歌詞對位任務最基本的評估指標。
- MedAE (Median Absolute Error,中位數絕對誤差):與 MAE 相同的計算邏輯,但改以中位數取代平均數,對少數離群值(例如極端對位錯誤)的敏感度較低,能更穩健地反映系統在典型情境下的表現。
- Percentage Correct(容忍窗口正確率):計算預測時間戳記與真實時間戳記之差值,落在容忍窗口(tolerance window)內的比例,數值愈高愈好。常用的容忍窗口為 0.3 秒,意即預測誤差在 0.3 秒以內則視為正確;此指標之設計考量,在於人耳對歌詞與音訊同步的感知具有一定容忍範圍,低於此閾值的誤差通常不會被聆聽者察覺。
- Percentage of Correct Segments(正確片段覆蓋率):將預測時間戳記與真實時間戳記分別轉換為一系列時間片段(即相鄰兩個時間戳記所圍成的區間),再計算兩組片段之間重疊部分的總時長佔整體時長的比例,數值愈高愈好。與 Percentage Correct 著重於單一時間點的準確性不同,此指標從片段覆蓋的角度衡量對位品質,即便單詞起始點有所偏移,只要片段仍有充分重疊,依然能得到較高的分數;因此,兩者通常一併使用,以較全面地評估系統表現。
- WER(Word Error Rate,單詞錯誤率):沿用自 ASR 領域的標準指標,計算將預測文字轉換為真實文字所需的最少編輯操作次數(插入、刪除、替換)佔真實單詞總數的比例,單位為百分比,數值愈低愈好。
- CER(Character Error Rate,字元錯誤率):與 WER 計算邏輯相同,但以字元為單位進行計算,對部分拼寫錯誤或預測不完整的單詞懲罰較輕,適合用於觀察系統在字元層級的表現。