● こんな方におすすめ ●

・グローバルでのスポーツ×AI活用事例を知りたい方
・スポーツ分析手法のトレンド情報を探している方
・スポーツ報道におけるAI活用の事例を知りたい方

この記事を読み終えるのに必要な時間

5分

スポーツテックとは

スポーツテックとはスポーツ(Sports)とテクノロジー(Technology)を掛け合わせた造語で、言葉の通りスポーツにAIなどのテクノロジーを活用する分野です。近年日本でもニュースなどで紹介されることが増えたように感じます。

今回のブログではスポーツにAIを活用した事例を、様々な角度からご紹介したいと思います。

過去と現在のデータ分析を活用したAI事例

チームスポーツにおけるゲーム分析-(1)

まずはチームスポーツシーンにAIを活用した事例をご紹介します。

一つ目に、球技におけるAI活用についてです。

イギリスの機械学習における学会であるBMVC2021BRITISH MACHINE VISION CONFERENCE 2021)に採択された『DeepSportLab: a Unified Framework for Ball Detection, Player Instance Segmentation and Pose Estimation in Team Sports Scenes』は、球技スポーツにおいて「スポーツシーンにおける選手のセグメンテーション」「ボールの位置推定」「選手の姿勢推定」の3つを同時に行うフレームワーク「DeepSportLab」を提唱しました。
従来の手法では、この3つを同時に予測するのではなく、各タスクを個別に求めていくモデルを活用した方法を使用していました。しかし、個別に取り組む場合はそれぞれのタスクに対応したモデルを並列に動作させなくてはならず、計算量が多くメモリも過大に使用するためリアルタイムでの応用が困難という課題がありました。さらに個別でモデルを動作させるため、タスク間の相関を無視してしまい、より良い性能を阻害する可能性もありました。

一方で、DeepSportLabでは1枚の画像から画像処理で一般的なCNN(畳み込みネットワーク)を用いて画像の特徴を抽出し、その後「Part Intensity Field (PIF)」 というネットワークから関節の位置やサイズを求め、さらに空間分析で使用される特徴学習手法である「Spatial Embedding」を使用して各ピクセルがどの選手に属するものか予測するセグメンテーションを行います。
このフレームワークは実際にDeepSportのバスケットボールのデータセットを使用して評価され、それぞれのタスクを個別に処理するSoTA手法と同等のパフォーマンスを実現しています。これにより実際に精度も申し分なく運用に活用でき、従来課題であったリアルタイム性などの課題が解決される可能性が示唆されています。


出典:DeepSportLab: a Unified Framework for Ball Detection, Player Instance Segmentation and Pose Estimation in Team Sports Scenes
キャプション:Figure 1: An overview of DeepSportLab.
Figure 3: Pose recognition and mask segmentation samples.
https://arxiv.org/pdf/2112.00627.pdf

チームスポーツにおけるゲーム分析-(2)

続いてはサッカーシーンでのAI活用です。

マサチューセッツ工科大学とFIFAの合同研究である『Automatic event detection in football using tracking data』では、これまで一部手動で取得する必要があったサッカーのイベントデータを自動で取得するフレームワークを提案しています。ここで言う「イベントデータ」とは、パスやシュートなどの試合中に発生したイベントについて、発生時刻や位置、プレーヤーといった情報が付与されたログ(履歴)になります。
このフレームワークでは、動画から抽出可能な全選手とボールにおける2次元座標で示す位置データと、その座標を活用して選手およびボールの追跡データを用いた計算・取得を行います。取得精度に関しては申し分なく、ほとんどのイベントについて約90%の精度で検出することができたそうです。

このフレームワークを活用することで、サッカーのイベントデータ取得がより容易になります。さらにイベントデータ取得のために使用した選手やボールの追跡データを活用することで、チーム分析や育成に貢献できるでしょう。

出典:Automatic event detection in football using tracking data
キャプション:Figure 1: a) Proposed computational framework, along with information generated at each step. b) Schematic
detailing all possible labels for the attributes ball control, event name, dead ball event and from set piece on
the output events table.
https://arxiv.org/pdf/2202.00804.pdf

個人スポーツにおけるゲーム分析

バスケットボールやサッカーなどのチームスポーツとは異なり、卓球や水泳などは個人競技のスポーツです。そのようなチームプレーを行わないスポーツにおいてもAIでのデータ分析を行うことが、選手のサポートに活かされています。
近年、セキュリティや介護分野での需要から、きめ細かいアクション(細粒度行動)を検出するために「時空間ニューラルネットワーク(Spatio-Temporal Neural Networks)」という時間的および空間的に依存関係のある事象や行動を予測するためのモデルの研究が増えてきています。このモデルでは瞬間的に得られる動画の1フレームからではなく、連続した時間の情報も考慮して予測することが可能です。

スポーツ分野でもアクション分析への活用が行われており、時空間モデルを活用した卓球のストロークの検出・分類を行う研究などがあります。
以下の画像で示す卓球のストローク分類の研究では、RGB画像から作られる動画、画像から推定される卓球選手の姿勢データ、そして動画の各フレーム間の物体の動きから得られる速度をベクトルで表示したオプティカルフローの3つのモダリティを使用し、検出と分類の両方のタスクで優れたパフォーマンスが得られました。


出典:Three-Stream 3D/1D CNN for Fine-Grained Action Classification and Segmentation in Table Tennis.
キャプション:Figure 1: Frames of an “Offensive Forehand Hit” stroke from TTStroke-21 with its estimated pose and optical flow.
https://arxiv.org/pdf/2109.14306.pdf

攻撃時のフォアハンドヒットのストロークにおける推定姿勢()とオプティカルフロ()

出典:Three-Stream 3D/1D CNN for Fine-Grained Action Classification and Segmentation in Table Tennis.
キャプション:Figure 2: Three-Stream architecture processing RGB, optical flow and pose data in parallel with spatio-temporal convolutions.
Figure 3: TTStroke-21 Dataset.
https://arxiv.org/pdf/2109.14306.pdf

提案した時空間モデルのパイプライン(3つのモダリティによる入力がある)(Figure 2)と検出ストローク例(Figure 3 (c))

未来のアクションを予測するAIの活用事例

さらに、個人競技のなかでも卓球やテニス、バドミントンなどのラリー競技では対戦選手との関係がプレーのスタイルに影響します。
ラリー競技におけるスポーツ分析の研究は、先ほどの「個人スポーツにおけるゲーム分析」の項目でもご紹介した事例のような球技のストロークの定量化や、ストロークに関する情報を競技映像から読み取ることが主でした。

ですが最近は、過去の連続したストロークからショットの種類や位置の情報を含めた後続のストロークを予測するような、未来予測の分析も行われています。この予測は過去や現在の分析結果と同様に、コーチングや戦略、競技中の予測実況にも有用です。

ストロークの予測にはまず、入力シーケンス(直前に打たれたストローク)のベクトルを活用して出力シーケンス(後続のストローク)を出力する S2Sの応用が考えられていました。
しかしこのモデルには3つの課題がありました。まず1つ目は、2人のプレーヤーがラリーを行う混合シーケンスには活用が難しいこと。2つ目に一般的なシーケンスとは異なり、ストロークを予測するにはショットの種類や打ち込まれる位置など1回の予測に複数の出力が必要だということ。3つ目に、ストロークは選手の競技スタイルや位置、ラリーの状況によって異なるため、ラリーのシーケンスから複雑な情報を読み取ることが困難とされていることです。

そんな課題を克服し、バドミントンのラリーに着目したストロークを予測する最新の手法がありますのでご紹介いたします。
台湾政府の国家科学及技術委員会に推進された国立陽明交通大学による『ShuttleNet: Position-aware Fusion of Rally Progress and Player Styles for Stroke Forecasting in Badminton 』ではラリー競技においてどの方向でどのようにストロークが返されるか推論をするモデル『ShuttleNet』を提唱しました。ShuttleNetは選手とラリーの情報をそれぞれ検出するエンコーダー/デコーダー2つ(TRE: Transformer-based rally extractor; TPE: Transformer-based play extractor)と、それら情報の重みと位置の重みを組み込むことによりラリーと選手のコンテキストを融合させる位置認識ゲート融合ネットワーク(PGFN: Position-aware Gated Fusion Network)、そして後続のストロークに関して複数の情報を出力する予測層(Prediction layer)で構成されるフレームワークです。

バドミントンの競技映像を利用した定量的な評価において、ショットの種類と位置のどちらの予測についても様々なシーケンス予測モデルと比較してShuttleNetの方が優れているという結果が出ています。それは選手の情報を検出するTPEを活用することが2人対戦の競技においてストローク予測の優位性に寄与していると示唆しています。

出典:ShuttleNet: Position-aware Fusion of Rally Progress and Player Styles for Stroke Forecasting in Badminton
キャプション:Figure 2: Illustration of the ShuttleNet framework.
https://arxiv.org/pdf/2112.01044v1.pdf

スポーツ報道のためのゲーム分析

最後に、報道分野でのチームスポーツの映像分析に関するAI技術を紹介します。特定の選手やチームのハイライト映像を鑑賞することはスポーツファンの間でよく見られますが、以前からコンピュータビジョンの学会では、顔検出(Face detection)またはユニフォームの背番号によってスポーツ選手を見分ける手法が広く使われていました。しかし、特定の選手を切り取るハイライト映像の生成をサポートするには、非言語表現の映像を精緻に理解する必要があるため難易度が高いとされていました。
そこで、マルチメディア分野の世界的なイベントであるACM International Conference on Multimediaにて発表された『Distantly Supervised Semantic Text Detection and Recognition for Broadcast Sports Videos Understanding 』では、テキスト検出(Semantic text detection)とテキスト認識(Text recognition)を活用し、スポーツ映像の実況コメントと競技中の時計盤のテキストを照らし合わせることでゲームの理解を可能にしました。また半教師あり学習(正確にはDistant Supervisionという手法)を活用し、訓練データの自動生成も可能にしました。

テキスト検出では、まずスポーツ映像の各フレーム内を時計盤か背景に分類し、時計盤からクロップしたテキスト範囲からチーム名、時間、クオーターを検出します。そしてテキスト認識によってスポーツ特有の表記をしているテキストをモデルが理解できるよう変換し、検出したテキストとスポーツ実況の内容を照合し競技内容を理解するといった手法を取ります。訓練データの自動生成では、チーム名、時間、クオーターのスポーツ特有のロジカルルールをまとめた知識制限(KC: Knowledge Constraints)を使用し、モデルに適切な訓練データを抽出します。以前はゲームの終始を捉えたスポーツ映像を実況コメントと照らし合わせる手法を利用しており、ハイライト映像に対して同様の手法を取ることの複雑さを示していましたが、知識制限を活用して訓練したフレームワークによってテキスト検出とテキスト認識を精緻にすることができると結論づけました。

出典:Distantly Supervised Semantic Text Detection and Recognition for Broadcast Sports Videos Understanding
キャプション:Figure 1: (a) Comprehensive understanding of video segment by aligning frame with corresponding play-by-play commentary
using play time and quarter as a composite key. (b) Process of end-to-end text recognition from video frames. (c) Effect of scene
transitions in contextual object (clock) in contiguous time interval frames.
https://arxiv.org/pdf/2111.00629v1.pdf

まとめ

今回はスポーツテックに関するAI活用事例を4つご紹介しました。チームプレーや個人戦など様々な種類の競技に対して、選手やチームの育成やスポーツ報道など多岐に渡るゲーム分析の研究が近年活発になっています。
冒頭の事例のように競技者自身の観点から育成の目的でのAI活用は明らかでしたが、5Gの普及などネットワークの発達が著しい今、観戦者観点や特にスポーツ報道への活用は今後注目されることでしょう。またスポーツ実況におけるゲーム解説の観点でも、既にゲーム分析の技術は活用されており、コアなスポーツファンからの需要もさらに高まるはずです。

■ 本ページでご紹介した内容・論文の出典元/References

Seyed Abolfazl Ghasemzadeh, Gabriel Van Zandycke, Maxime Istasse, Niels Sayez, Amirafshar Moshtaghpour, Christophe De Vleeschouwer, “DeepSportLab: a Unified Framework for Ball Detection, Player Instance Segmentation and Pose Estimation in Team Sports Scenes”, Figure 1: An overview of DeepSportLab.,Figure 3: Pose recognition and mask segmentation samples.,
https://arxiv.org/pdf/2112.00627.pdf

Ferran Vidal-CodinaNicolas EvansBahaeddine El FakirJohsan Billingham,“Automatic event detection in football using tracking data”,Figure 1: a) Proposed computational framework, along with information generated at each step. b) Schematic
detailing all possible labels for the attributes ball control, event name, dead ball event and from set piece on
the output events table.,
https://arxiv.org/pdf/2202.00804.pdf


Pierre-Etienne Martin, Jenny Benois-Pineau, Renaud Péteri, Julien Morlier,“Three-Stream 3D/1D CNN for Fine-Grained Action Classification and Segmentation in Table Tennis.”,Figure 1: Frames of an “Offensive Forehand Hit” stroke from TTStroke-21 with its estimated pose and optical flow.,Figure 2: Three-Stream architecture processing RGB, optical flow and pose data in parallel with spatio-temporal convolutions.,
Figure 3: TTStroke-21 Dataset.,
https://arxiv.org/pdf/2109.14306.pdf

Wei-Yao Wang, Hong-Han Shuai, Kai-Shiang Chang, Wen-Chih Peng,National Yang Ming Chiao Tung University, Hsinchu, Taiwan,“ShuttleNet: Position-aware Fusion of Rally Progress and Player Styles for Stroke Forecasting in Badminton”,Figure 2: Illustration of the ShuttleNet framework.,
https://arxiv.org/pdf/2112.01044v1.pdf

Avijit Shah, Topojoy Biswas, Sathish Ramadoss, Deven Santosh Shah,“Distantly Supervised Semantic Text Detection and Recognition for Broadcast Sports Videos Understanding",Figure 1: (a) Comprehensive understanding of video segment by aligning frame with corresponding play-by-play commentary
using play time and quarter as a composite key. (b) Process of end-to-end text recognition from video frames. (c) Effect of scene
transitions in contextual object (clock) in contiguous time interval frames.,
https://arxiv.org/pdf/2111.00629v1.pdf

関連記事

*テックブログAI女子部*
【スマートビルディング×AI】スマートビルディングにおける社会課題へのAI活用事例3選

*テックブログAI女子部*
バックエンド業務×AIでビジネスプロセスを改善する方法3選

*テックブログAI女子部*
【教育×AI】教育に関わるさまざまな課題をAIで解決した例3選