white-02の日記

技術ブログにしたくてもできない

kaggleチュートリアルのtitanicをやってみた

 こんにちわ。タイトルが昔のニコニコの動画みたいで恥ずかしいですけどkaggleでチュートリアルと言われるtitanicのデータを使ったコンペに参加したのでそれについて書いていこうと思います。titanicの流れを日本語でまとめてくださっている方の記事を参考に進めたので、いざ始めてみたい方やコードを見たい方は以下のリンクへお願いします。

Titanic日本語チュートリアル koji | Kaggle

 

kaggle?

 kaggleは世界で最も有名なデータ分析のコンペを運営するサイトのことです。そのコンペは企業などから与えられるデータを用いて統計手法や機械学習を使って予測モデルを作製し、いかに最適化したかを競います。大きなコンペになると賞金が出て強いチームがこぞって賞金をかっぱらっていく仕組みです。

 twitterやブログでも盛んになっていますし、サイトは英語だけですけど初心者でもなんとかなります。

 

とりあえずtitanic

 kaggleを始めるにあたり入門としてよく挙げられるのがtitanicです。titanicの生存者とそうじゃない人(やんわり表現)を予測するモデルをトレーニングデータから作り、そのモデルを使ってテストデータを仕分ける事が目的です。上記URLの記事を参考に進めることでとりあえず0.78ちょいのスコアがでますのでとりあえずやってみる事をオススメします。

 

今のところの結果

 まぁとりあえず現状のスコアは0.78947です。特によくもない普通の結果です。何も調整してないsklearnのSVC(RBFカーネル)なのでこれからが伸びどころという感じです。どうやったら1なんてスコア出るんですかね、気になります。

 

感想

 案外初期値だといいスコア出ないものだなぁという印象。後、与えられたデータに欠損が普通にあってそこをどう補填するかも鍵になったりするのかな。今回はランダムフォレストを使って補填してましたがこれランダムフォレストが最適解なのかもわからないのでもうちょっと勉強が必要そうです。統計学機械学習共にまだまだ未熟なので少しずつでもやっていく所存です。