課後練習 07
題目敘述與分數比率
請依下列先後順序實作。程式碼都寫在同一或兩個檔案內即可,不必分題號:
- (0%)至 Kaggle 的 Titanic - Machine Learning from Disaster 比賽,下載相關資料集。
- (40%)讀取其中的 train.csv,並以 Sex 和 Age 欄位為特徵,以及 Survived 欄位為答案,訓練高斯貝氏分類模型。
- 自己用逗點分隔每行會有問題,因此建議使用 csv 函式庫來讀取。
- 請勿手動對 csv 檔案作任何更動。
- 本題接受隔週 demo,但是會打七折。
- (30%)讀取其中的 test.csv,並以 Sex 和 Age 欄位為特徵,加上前一步訓練出的分類器,回答預測結果。
- 建議使用 csv 函式庫來讀取。
- 請勿手動對 csv 檔案作任何更動。
- 於本題中,把代表預測結果的變數 print 出來即可。
- 本題之隔週 demo 改為打八折。
- (20%)把前一步的預測結果,修改成 Kaggle 指定的格式,並上傳至 Kaggle 看看預測準確度。
- (10%)請加其他欄位(例如 Pclass)為特徵,訓練另一個模型並上傳至 Kaggle,看看預測準確度是否有差異。
注意事項
- 排隊請使用此連結。
- 本週允許使用 numpy、scikit-learn,以及任何 Python 內建的函式庫。