データサイエンティストにあなたもなれる?数学嫌いのド文系が体験講座に挑戦
翌週20日に行われた第2回は「K-means法の実装」、27日の第3回は「新規ユーザーの初日行動と翌日起動の関係」についての授業でした。
そんななか救いだったのは、データミックスの講師やほかの参加者、ビッグデータ解析に従事する業種の人たちと情報交換できたこと。普段なかなか接する機会のない方たちとの交流で、IoT、ビッグデータ時代の到来をまざまざと感じられたのは、とても有意義だったのは間違いありません。
確立、統計、微分積分……真面目に勉強しとけば
2月に入ってもデータサイエンティスト講座は続きます。
2月3日の第4回には「統計学ドリル」を解き、そして10日の最終回には「データ分析に必要なロジカルシンキング」と、「データ分析のミニケーススタディ」を学びました。
今回の講座を通して、まず痛感したことは「高校数学、もっとちゃんとやっておけばよかったなぁ」でした! 高校のときは、数学が役立つことはないだろうな、なんて思っていましたし。
あのときの自分にアドバイスしたい、数学もうちょっと頑張っておこうよって。(笑) 後悔先に立たずですが、主に使用するものは、確立、統計、微分積分、行列のこのあたりでしょうか。もし興味がある方は、この分野をあらかじめ復習しておくと、非常にスムーズに理解できるのではないでしょうか。
なかなか残酷なデータ分析に挑戦
後日、学習成果を確かめるための、「Kaggle(カグル)」 を受けました。
「カグル」とは、ウェブのプラットフォームで、企業がデータを投稿し、データサイエンティストがその最適モデルを競うサービス。今回は「タイタニック予想」に挑戦します。
かの豪華客船、タイタニック号。北大西洋上で沈没し、2224人の乗員乗客のうち1502人が亡くなりましたが、ここではその生存者を性別や年齢、乗船地、社会階層ランクなどの乗客データから予測します。
ここでは891人分のデータを用いて、ほかの418人の生存予測を行います。なかなか残酷ですが、データ分析の世界ではもっともメジャーな課題のひとつです。