データサイエンティストにあなたもなれる?数学嫌いのド文系が体験講座に挑戦
データ分析は、以下の6つのステップで行いました。データサイエンティストに限らず、仕事上、膨大なデータに触れる人には参考になるかもしれません。
1. データを眺める
2. 教師データ(結果がわかっているデータ。生存したのかどうか)を前処理する
3. 予測モデルを作って学習する
4. テストデータ(結果がわかっていない)を前処理する
5. 学習済みの予測モデルで、テストデータを予測する
6. 結果を出力する
まずは性別や年齢など、すでに手元にある「教師データ」をじっくり眺めて、その特徴を掴みます。このデータは役に立ちそうだとか、これは中央値を求めてみようだとか。
そこから、より良い結果を得るため、データの偏りを調整したり、余計なデータを削除したりと、贅肉をそいで、前処理をします。あらかじめ組んでおいたプログラミングに、そのデータを分析にかけ、一人ひとりの生存の可否を予測します。
およそ5時間の格闘のはてに、ついに予測結果が出ました。
これを実際の生存者のデータと照らし合わせてみると……正答率は、42%! 80%程度の精度を出せると合格といった感じのようなので、正直、結果はまだまだかもしれません。しかし、データミックスの担当者によれば 、
「初めての予測だと平均は60%くらいのようですが 、結果が出ないほうが多いです。受講生の理解度によって異なるとは思いますが、なかには1~2か月の受講でkaggleに挑戦することもできます。データサイエンティストの基礎体力、技術の理解のため、kaggle を受けることはオススメです」
実はそれなりに上出来の結果だった!? 確かに短い時間でしたが、今回の講義を通して、これまでなかった人脈を増やしたり、脳の普段使わない部分を使ったりして、とても勉強になりました。
てっきり自分は数学と縁のない人生かと思っていましたが、こうやってデータ分析、プログラミングの勉強をしてみるのもいいかもしれません。本やeラーニングにはない、みんなで一緒に勉強するという良さもあります。
活きた知識が得られることも非常に大きいと感じました。ド文系の筆者でもやっていけるのです。気になった読者も一度、重い腰を上げてみては。
<TEXT/井野祐真>