データで読み解く「最もコスパの良い映画」アメリカ映画3万作の1位は
「コロナのせいで外出できないし、家で出来ることないかな」。おうち時間が増えた今、こんなことを考えている人も多いのではないでしょうか。
夏休みに入り、ゆっくり映画をみる機会も増えた方もいるのではないでしょうか。そんな時、なるべく多くの人と共通の話題となる映画作品がわかったら嬉しいと思いませんか。
データサイエンスとは、統計学や機械学習(AIと呼ばれている技術の1つ)といった数学的なアプローチによって、様々なデータから知見や洞察を得るための手法で、業績アップ、DXの推進などさまざまな課題解決の目的で活用されています。日本でもだいぶ耳にする機会が増えてきましたが、「データサイエンティスト」は、米国では学生に最も人気のある職業ともいわれています。
そこで、多くの人が観ており、かつ満足できる映画作品を選ぶための手順をデータ解析から明らかにしていきます。また、その過程で、視聴者数が10万人を超える条件や、お薦めのジャンル、今おさえておくべき監督を説明したいと思います。
※この記事における「コスパの良い作品」とは、実際の内容とは無関係に、評価と視聴者数がともに高い作品と定義
約3万件の映画データを使用
今回は「Filmarks」という国内最大級の映画・ドラマ・アニメのレビューサイトからスクレイピングして抽出(2020年4月1日時点)。取得したデータはアメリカ映画3万1580件です。このうち、「評価がない作品」と「動画配信サービスに対応していない作品」を除いた8799件を分析データとして使用。
【取得したデータの例】
・作品名:コンテイジョン
・上映日:Nan
・上映時間:106(分)
・評価:3.3(5点満点)
・観た人数:14147
・観る予定の人数:5221
・視聴者数(総数):19368
・ジャンル:パニック、スリラー
・監督:スティーブン・ソダーバーグ
・脚本家:スコット・Z・バーンズ
・主演:マリオン・コティヤール
・動画配信サービス:対応
視聴者数が10万人を超える3つの条件
上映時間、評価、上映日と視聴者数の関係を図にしてみたところ、視聴者数が10万人を超える3つの条件が見つかりました。
・上映時間:80~200分
・評価 :3.3以上4.5以下
・上映日:1985年以降
Filmarksが2012年にサービスを開始していることから、最近の作品のほうが10年以上前の作品よりも視聴者数が多い傾向があります。