データサイエンティストにあなたもなれる？数学嫌いのド文系が体験講座に挑戦

2018.05.18 ニュース

　翌週20日に行われた第2回は「K-means法の実装」、27日の第3回は「新規ユーザーの初日行動と翌日起動の関係」についての授業でした。

　そんななか救いだったのは、データミックスの講師やほかの参加者、ビッグデータ解析に従事する業種の人たちと情報交換できたこと。普段なかなか接する機会のない方たちとの交流で、IoT、ビッグデータ時代の到来をまざまざと感じられたのは、とても有意義だったのは間違いありません。

確立、統計、微分積分……真面目に勉強しとけば

だんだんと講義は難解に……

　2月に入ってもデータサイエンティスト講座は続きます。

　2月3日の第4回には「統計学ドリル」を解き、そして10日の最終回には「データ分析に必要なロジカルシンキング」と、「データ分析のミニケーススタディ」を学びました。

　今回の講座を通して、まず痛感したことは「高校数学、もっとちゃんとやっておけばよかったなぁ」でした！　高校のときは、数学が役立つことはないだろうな、なんて思っていましたし。

　あのときの自分にアドバイスしたい、数学もうちょっと頑張っておこうよって。（笑）　後悔先に立たずですが、主に使用するものは、確立、統計、微分積分、行列のこのあたりでしょうか。もし興味がある方は、この分野をあらかじめ復習しておくと、非常にスムーズに理解できるのではないでしょうか。

高校数学の知識は必須かもしれない

　後日、学習成果を確かめるための、「Kaggle（カグル）」を受けました。

「カグル」とは、ウェブのプラットフォームで、企業がデータを投稿し、データサイエンティストがその最適モデルを競うサービス。今回は「タイタニック予想」に挑戦します。

　かの豪華客船、タイタニック号。北大西洋上で沈没し、2224人の乗員乗客のうち1502人が亡くなりましたが、ここではその生存者を性別や年齢、乗船地、社会階層ランクなどの乗客データから予測します。

　ここでは891人分のデータを用いて、ほかの418人の生存予測を行います。なかなか残酷ですが、データ分析の世界ではもっともメジャーな課題のひとつです。