2024年度におけるJリーグデータの公開

Football

データの無料公開

2025年1月頃に、Hudl Statsbombにて、2024シーズンのJ1リーグのデータが無料公開されました。
データの概要について整理したのち、データを利用した分析を行っていきたいと思います。
https://www.hudl.com/en_gb/gc/download/free-data-japans-2024-j1-league-jp

データについて

こちらのデータは、以下の5つのデータから構成されています。
・hudl_physical.json
・matches_mapping.csv
・players_mapping.csv
・sb_events.json
・sb_matches.json
・teams_mapping.csv

データのサマリは次の通りです。

No.ファイル名称データサイズ(行数,列数)データ概要
1hudl_physical.json試合に出場した各選手の総移動距離や走行距離などのデータ
2matches_mapping.csv(380, 2)statsbomb_idとwyscout_idの対照表
3players_mapping.csv(636, 2)statsbomb_idとwyscount_idの対照表
4sb_events.json(1244341, 162)Hudl Statsbombのイベントデータ
5sb_matches.json(380, 46)各試合に関する追加情報
6teams_mapping.csv(20, 2)
statsbomb_idとwyscount_idの対照表

データの構造

今回分析対象とするのは、以下の3つのデータです。
・hudl_physical.json
・sb_events.json
・sb_matches.json

そのため、ここから特にこの3つのデータに関する構造を整理していきます。

hudl_physical.json

主に、選手個人に着目したときのデータが取得されています。
また、以下に主要なカラムを記載したが、それらが、15分単位や1st, 2ndハーフで集計したときの値などが記録されています。

  • 主要なカラム
    • 総走行距離
    • スプリント距離
    • スプリント回数
    • 最高速度

sb_events.json

主に、ボールを中心としたイベントの動きが記録されています。
このデータが、本来手に入れることが難しいほどの粒度のデータになっており、深く追求していく価値があると思われます。

  • 主要なカラム
    • イベント発生の時間
    • パスの方向や距離、受けてなどパスに関するもの
    • ピッチ上の座標情報
    • プレイのパターン(コーナーやゴールキック、スローインなど)

sb_matches.json

主に、試合に関する情報が記録されています。
特定の試合がどのようなスコアで終了したのか、その時のレフェリーは誰かなどが分かります。

  • 主要なカラム
    • ホームチーム名
    • アウェイチーム名
    • ホームスコア
    • アウェイスコア
    • レフェリー名

最後に

今回無料公開されたデータは想定していたよりも粒度の細かい情報になっていました。
そのため、今後細かくデータを分析していくことで、サッカーをもっと面白く見れると思っています。
また、これらの分析から新しい洞察が得ることが出来たら、自身のデータ分析キャリアにも幅が持てると想定しています。
スポーツ関連のデータを詳細にみるのは初めてだが、勉強をしながら様々な角度からデータを探索していきたいです。

今後、このデータにおける分析を公表していくため、様々な意見を頂ければと思います。

コメント

タイトルとURLをコピーしました