課後練習 11
題目敘述與分數比率
請將教材「交叉驗證」的前兩個範例,套用到 Kaggle 的 Titanic - Machine Learning from Disaster 競賽,依序完成下列題目
- (20%)將競賽提供的訓練資料,依照教材「交叉驗證」的方式,切分出數個 folds。
- 可以改變 N_FOLD 的值,亦即可以改變切成多少個 folds,唯一但選定其值後,於本練習題中請不要再次調整。
- 比賽資料已經切分出訓練集,你不必像教材範例一樣,把整個資料集切 80% 出來當訓練集。
- (60%)選定幾個有超參數可以調整的模型,例如 MLPClassifier 或 XGBClassifier,來進行交叉驗證,並透過調整超參數,以盡可能取得好的平均效果。
- (20%)使用競賽提供的全部訓練資料,以及前面取得最佳結果的設定一起訓練模型,並對競賽的測試資料預測出結果後,上傳至 Kaggle。
- 為了練習題的批改方便,於本週請不要使用教材第三個範例「將過程中訓練的模型全部直接保留,並將其全部用來對測試集做預測,再將結果取平均或中位數等統計」的方式。
注意事項
- 本週僅允許使用該範例有 import 的函式庫、csv 函式庫,以及你於第二題選定的模型所屬的函式庫。如果你願意自己看懂 sklearn.model_selection.cross_validate,那也可以使用。
- 若有開始實作期末專案,也可以改用期末專案指定的競賽完成本週題目;此時,期末專案允許 import 的函式庫亦可用於本週。
- 完成後,請將下列項目,依指定方式在 eeclass 專區繳交。於課堂,教師將依繳交順序批改或叫號 demo。
- 文字輸入框回答:第二題的實驗結果(包含超參數,與使用該組超參數進行交叉驗證後的平均的評估結果)至少三組。
- 附件繳交:所有程式碼(若有多個檔案,要能讓教師容易看出執行順序)。
- 只打算繳交部分項目時,請在文字輸入框說明。
- 若看到你的繳交已被批改,就代表你已取得分數,若沒被叫到就可以不必來 demo。若不放心,可以在離開前向教師詢問。
- 本練習接受八折補交,細節另行公布。