情報のプロ「データサイエンティスト」が教える「データのウソ」の見破り方

2018.02.07 ニュース

――なるほど。ほかに何かアドバイスはありますか？

堅田：あとは、データサイエンティストは、記事とか文書などのテキストデータも分析対象なんですよね。このことを自然言語処理（NLP）と呼ぶんですが、わかりやすいのが「特徴語」を抽出しようとすること。

　その記事のなかで、特徴的に使われている単語を抽出することで、他の記事と何が違うのかを浮かび上がらせます。つまり、読むときに他の記事と比べたときに、その記事で独特に使われている単語を意識しながら読むと、時間をかけずに記事の骨子がつかめます。

――ちょっとしたことに気をつけておくことが大事ですね。

堅田：特徴語をどのように抽出するかというと、たとえば、『SPA！』の1年分の記事を分析するとしたら、まず記事ごとに単語をバラバラにします。で、そのときに大切なのが、調べる単語で、ほかの記事にもよく出てくる単語は重みを下げて、他の記事には出てこない単語の重みを上げること。

　そうやって単語の重要度を調整して、その記事ならではの単語を浮かび上がらせると、「あ、この記事にはこういう内容が書いてありそうだな」というのが自動的にわかるようになります。

　それでタグ候補を自動生成できるようにしたり、閲覧履歴からその人がどういう記事が好みかを分析して、おすすめ記事を出したり、あるいはタイトルにどういう単語が入っていると、クリック数が高くなるのかを解読できるようになります。

　以前、私がある動画を扱う企業のレコメンデーションのお手伝いをしていたのですが、ウェブ上の記事ページにおすすめ動画を出したとします。そのとき、紹介する記事のなかに、どういうワードが入っているとクリック数が高くなるのかを調べていましたね。

　何千、何万人が見ているメディアだと、クリック数が0.1％上がっただけで、購入ページに行く人が数百人か、数千人増えるわけですよね。もし仮に、購入率が同じでもクリック率が上がれば、ものすごい利益になるわけで、レコメンデーションの分野って比較的お金に近いんですよね。

＜取材・文／井野祐真＞

株式会社扶桑社第二編集局SPA!Web編集部「bizSPA!フレッシュ」編集長、詠（ながみ）です。映画と音楽が好きです。