データの無料公開
2025年1月頃に、Hudl Statsbombにて、2024シーズンのJ1リーグのデータが無料公開されました。
データの概要について整理したのち、データを利用した分析を行っていきたいと思います。
https://www.hudl.com/en_gb/gc/download/free-data-japans-2024-j1-league-jp
データについて
こちらのデータは、以下の5つのデータから構成されています。
・hudl_physical.json
・matches_mapping.csv
・players_mapping.csv
・sb_events.json
・sb_matches.json
・teams_mapping.csv
データのサマリは次の通りです。
No. | ファイル名称 | データサイズ(行数,列数) | データ概要 |
1 | hudl_physical.json | 試合に出場した各選手の総移動距離や走行距離などのデータ | |
2 | matches_mapping.csv | (380, 2) | statsbomb_idとwyscout_idの対照表 |
3 | players_mapping.csv | (636, 2) | statsbomb_idとwyscount_idの対照表 |
4 | sb_events.json | (1244341, 162) | Hudl Statsbombのイベントデータ |
5 | sb_matches.json | (380, 46) | 各試合に関する追加情報 |
6 | teams_mapping.csv | (20, 2) | statsbomb_idとwyscount_idの対照表 |
データの構造
今回分析対象とするのは、以下の3つのデータです。
・hudl_physical.json
・sb_events.json
・sb_matches.json
そのため、ここから特にこの3つのデータに関する構造を整理していきます。
hudl_physical.json
主に、選手個人に着目したときのデータが取得されています。
また、以下に主要なカラムを記載したが、それらが、15分単位や1st, 2ndハーフで集計したときの値などが記録されています。
- 主要なカラム
- 総走行距離
- スプリント距離
- スプリント回数
- 最高速度
sb_events.json
主に、ボールを中心としたイベントの動きが記録されています。
このデータが、本来手に入れることが難しいほどの粒度のデータになっており、深く追求していく価値があると思われます。
- 主要なカラム
- イベント発生の時間
- パスの方向や距離、受けてなどパスに関するもの
- ピッチ上の座標情報
- プレイのパターン(コーナーやゴールキック、スローインなど)
sb_matches.json
主に、試合に関する情報が記録されています。
特定の試合がどのようなスコアで終了したのか、その時のレフェリーは誰かなどが分かります。
- 主要なカラム
- ホームチーム名
- アウェイチーム名
- ホームスコア
- アウェイスコア
- レフェリー名
最後に
今回無料公開されたデータは想定していたよりも粒度の細かい情報になっていました。
そのため、今後細かくデータを分析していくことで、サッカーをもっと面白く見れると思っています。
また、これらの分析から新しい洞察が得ることが出来たら、自身のデータ分析キャリアにも幅が持てると想定しています。
スポーツ関連のデータを詳細にみるのは初めてだが、勉強をしながら様々な角度からデータを探索していきたいです。
今後、このデータにおける分析を公表していくため、様々な意見を頂ければと思います。
コメント