此外,有時候你會發現,讀書時讀太久把書背太死,考試時題型變化一點點可能就不會寫;對應到機器學習的情境下,就是較複雜的模型訓練了很久之後,雖然能把訓練集的模樣學得更透徹,但是到測試集上的表現就會炸掉,這樣的情況稱為過擬合(over fitting)。因此,為了防止模型過擬合,為了保護模型的穩定,就該輪到驗證集登場,我們可以在模型訓練當中,不時的將目前的模型用驗證集來測試,萬一由驗證集算出來的準確度下降了,就代表過擬合可能已經發生了。這樣子的做法是一個訓練集對一個驗證集,我們甚至可以把訓練集和驗證集混在一起,再拆成 K 份來使用,輪流用 K - 1 份訓練和 1 份驗證,稱為 K 折交叉驗證(K-fold cross validation)。
打完分數以後,如果對結果不滿意,想要看看到底錯在哪裡的話,這稱為錯誤分析。以辨識生理性別的例子來說,你可以挑出那些被分錯的資料,看看他們的頭髮長度或四肢粗細甚至是「這麼可愛一定是男孩子」等等特徵,如果跟各自所屬類別的資料分佈差距比較大,就可能造成模型的判斷錯誤。這時候,你就可以嘗試抽取不同特徵,或者換一個分類方法,以求改善模型分類效果。