Courseで学んだことをタイタニックコンペに適用する【Kaggle】

先日、Kaggleを始めた初老SEが、タイタニックチュートリアル、Intro、Intermediateと学習を進めて来ました。

今回は、Intro、Intermediateで学習したことを復習しながら、タイタニックコンペに適用してモデルの改善を行ってみたいと思います。

なお、記事内容には勘違いしている点もあり得るかと思います。お気づきの際はご指摘いただければ幸いです。

まずはチュートリアルのおさらい
最初のアプローチ
1. Pipelineを用いるようにする
2. モデルを評価できるようにする
まずは単純にモデルのパラメータをいじってみる
使用するモデルを変えてみる
使用するデータ項目を増やしてみる
まとめ

まずはチュートリアルのおさらい

チュートリアルは以下の記事で書きました。

チュートリアルでは、RandomForestClasssifierを用いてモデルを構築しました。

モデル構築時のパラメータは、n_estimators=5, max_depth=5でした。

モデルのトレーニングに使用したデータは、[“Pclass”, “Sex”, “SibSp”, “Parch”]の4項目でした。

推論結果のスコアは、0.77511でした。

最初のアプローチ

今回は、Intro、Intermediateと学んできたことを活かし、チュートリアルのスコア0.77511を上回るスコアを目指します。

まずは最初のアプローチとして、「モデルのパラメータを変えてみる」「使用するモデルを変えてみる」「使用するデータ項目を増やしてみる」を試してみたいと思います。

Pipelineを用いるようにする

Pipelineを用いるほどのことはしないかもしれませんが、癖付のためにもPipelineを用いるように変更してみます。Pipelineの作り方としては、「前処理の定義」「モデルの定義」「パイプラインの構成」の流れとなります。

チュートリアルのままを実現するため、ここでは、前処理は無し、モデルはRandomForestClasssifierをそのまま用いることになります。

具体的には、Pipelineをインポートして、Pipelineを構築、モデルで直接Fit/Predictするのではなく、このPipelineを用いてFit/Predictするように変更しました。

念のため推論結果をSubmitしてチュートリアルと同じスコアになることを確認しました。

モデルを評価できるようにする

今後のステップでモデルが改善しているかを評価するために、今あるデータをトレーニング用のデータと、評価用のデータに分割してやります。これには、sklearn.model_selection.train_test_splitを用いることになります。

また、Courseで学習した際には、Regressionモデル（回帰モデル）を用いての推論だったため、評価指標としてMean Absolute Errorを用いていましたが、今回は、Classificationになるため、評価指標としては、（最適かどうかは置いといて）Accuracyを用いることとし、sklearn.metrics.accuracy_scoreをインポートして、これを使うことにしてみます。