欧州サッカーの移籍金は予測可能か?強く影響するのは年齢だけじゃない
アルゼンチン代表FWのリオネル・メッシが2021年8月、FCバルセロナからパリ・サンジェルマンへと移籍し、話題になりました。欧州のサッカークラブチーム間の選手の移籍は話題性も高く、選手獲得に必要な移籍金のコストマネジメントは経営に多大な影響を与えます。
有望な選手を効率的に獲得しているクラブがあれば、有名なバルセロナのように高値の選手を集め、経営が苦しくなっているクラブもあります。メッシは移籍後の3年間で総額約140億円以上の報酬を受け取ると報じたメディアもあります。本記事ではオープンデータを用いたデータサイエンスによって、選手の移籍金額に影響を与える因子を分析し、その知見によって移籍金額の予測を試みたいと思います。
経験豊富な選手ほど移籍金が高い?
【仮説】「年齢が高い=経験がある=より優れたパフォーマンス」のある選手ほど、移籍金額が高い
対象は「プレミアリーグ」(イギリス)、「リーグ・アン」(フランス)、「ラ・リーガ」(スペイン)、「ブンデスリーガ」(ドイツ)、「セリアA」(イタリア)に所属するクラブチームとします。
取得するデータは、「transfermarkt.com」(海外サイト)掲載の移籍金および、「Sports Reference」(海外サイト)からポジションや年齢、また平均ゴール数やパス回数といった試合中のパフォーマンスを数値化した変数132個です(全て公開されているオープンデータです)
「ランダムフォレスト」で分析してみる
今回は機械学習でよく使われる手法の1つである「ランダムフォレスト」を使います。ランダムフォレストとは、決定木をたくさん使って何かを予測(未来の売上の額など)したり、分類(写真から犬か猫をあてるなど)したりできる手法です。
決定木とは、下記図のようなイメージです。問題とそれに対する選択肢の組合せが複数つながっておりまるで木のような形をしているアルゴリズムです。これを複数使うことによって最終的な答えの精度をあげるのがランダムフォレストです。なぜ、複数使うと精度があがるのかというと、人間も1人で考えるより、大勢で考えるほうがいい答えを導ける、というニュアンスであれば納得いただけるかと思います。
ランダムフォレストを使うメリットとして、用いた変数の中で特にどんな変数が予測に貢献しているかを数値化できることです。これによって、移籍金額に影響の及ぼす変数を見える化し、その選ばれた変数によって各選手の移籍金額を予測してみるという手順になります。