はじめに

新型コロナウイルス感染拡大につき、私たちのライフスタイルは大きく変わりました。
ライフスタイルが変われば生活に関わる意識も変化します。
個人的に、この1年で社会は「ヘルスケア」に対する意識の変化があったと感じています。私自身も以前より多くのバイオデータをデバイスで管理し、健康を意識するようになりました。

そこで今回は私AI女子部Makkyが、人間から取得できるデータのひとつである「視線」に関わる「視線推定(Gaze Estimation)」をテーマにお届けいたします。

こんな方におすすめの記事です

  • 視線データの活用例を知りたい
  • 視線推定モデルの応用事例を知りたい

この記事を読み終えるのに必要な時間

5分

視線推定はどんなタスクか?

視線推定は、人の顔全体が画像や動画として与えられたときに、その人がどこを見ているのかを予測するタスクです。
視線は重要な非言語的コミュニケーションの手がかりのひとつで、人間の意図に関する豊富な情報が含まれています。そのため深層学習が活用される前から、視線を取得し活用する研究が多く取り組まれてきました。
そして、深層学習が視線推定タスクに応用されるようになり、従来の手法よりもロバストで正確な結果が得られるようになっています。

深層学習を用いた視線推定手法では3次元で視線のベクトルを推定するものと、2次元で視線の位置を推定するものがあります。

3次元視線ベクトル推定は視線のベクトルを予測するもので、イメージのしやすい例だと自動車運転中の脇見運転防止などに活用されます。
2次元視線位置推定は、2次元の平面(水平と垂直座標)で注視位置を予測するため、従来からその注視点を利用したエンゲージメント調査や、最近ではコントローラーの制御に活用されています。

生活向上のために活かされる視線推定技術

深層学習が活用される前から、視線の測定はアイトラッキング技術を用いて取り組まれてきました。
しかし深層学習の活用と近年の社会変化も加わり、以前より視線データを活かした研究や商業的取り組みが増えてきています。今やスマートフォンを活用した視線データ収集も可能となり、より私たちの暮らしに密接に関わる身近なタスクとなったことが伺えます。

以降では、視線推定に関連する研究および事例をご紹介いたします。

生活支援

効果的な生活支援環境を実現するためには、移住者が周囲の物体とどのような相互関係を築いているかを理解する必要があります。

例えば介護の世界でIADL(Instrumental Activities of Daily Living=手段的日常生活動作)という言葉がありますが、これは日常生活の基本的な動作の中でも、より高度な運動や記憶力を必要とする動作について、自力で行うことができるかを示す指標です。

海外では、このIADLパターンと介助が必要な患者の移動性について分析を行い、介護施設など生活支援環境にいる人々の健康状態を評価する臨床医を支援するプロジェクトがあります。このプロジェクトは患者の移動性について視線推定で得られたデータも活用しており、広範囲を映した映像でも視線方向を推定可能なモデルを開発し、視線データをIADL分析に利用しようとしています。

出典:Gaze Estimation for Assisted Living Environments
キャプション:Figure 4. Examples of gaze.
Figure 7. Examples of results for our gaze.
https://arxiv.org/pdf/1909.09225.pdf

NET(ours)が対象のプロジェクトで作成したモデルで予測した視線方向を表し、
他のモデルよりも正しい方向を示していることが分かる。

教育

近年、人間の行動や状況を理解するために視線データを活用する研究や事例も多く発表されています。

例えば多肢選択式*の読解タスクに取り組んでいる際、質問への回答に最も関連性の高いテキストの部分での凝視時間が増加していることが明らかになっています。
この結果を活かした自動読解フレームワークは、以前よりも読解のパフォーマンスを向上させることに成功したそうです。
(*いくつかの選択肢を与えて、その中から適当なものを選択させる方法)

このように人間の視線データは「ものごとを理解する」と表現されるような認知的活動にも密接な関連性があると考えられており、特に最近はオンライン授業やリモートワークが普及したこともあり、教育分野での活用可能性が広がってきているように思います。

そこで、既に発表されているいくつかの論文を参考に、Webカメラを用いてタスク従事中の集中度を計測するデモを作成しました。

個人の学習特性や従事するタスクの影響などを考慮した結果と鑑みる必要はありますが、今後の活用性が見えてくるようなデモだと感じています。

エンターテイメント

「おうち時間」が増え、映画やドラマ、アニメを見る人が増えたと思います。そんな私も毎日1本映画を観ている映画好きなので、身近な映画に関わる例をご紹介します。

最近、映画を観ているときの視覚的な注視や固視パターンの研究を目的とした新しいデータセットがリリースされました。

注視点とサリエンシー(空間的に視覚刺激が注意をボトムアップ的に誘発する特性)のデータに加えて、カメラの動きやアングル、フレーミング サイズ、カットと編集の一時的な位置などの映画特有の特徴も提供しています。
そのため高レベルな映画の特徴や、その特徴と視線の関係性をモデルが把握できる可能性を示しています。

出典:Where to look at the movies : Analyzing visual attention to understand movie editing
キャプション:Figure 1: Examples of different camera angles.Figure 2: The nine framing sizes.
Figure 3: Examples of saliency heatmaps created from the collected fixation points.
https://arxiv.org/pdf/2102.13378.pdf

これまで最先端の注視点予測モデルでも高レベルな映画の特徴を把握して使用することに苦労していました。

映画は非静的な情報(監督が工夫するカメラアングルやショットの選択など)が含まれており、時には画像的な情報よりも注目を集めるのに重要な要素となる場合もあります。

実際に以下の『ショーシャンクの空に』(名作ですね、大好きです)の例を見ると、カメラの動きと共にGroundTruth(実際の、正解の視線データ)はポスターに視線が移動されており、ACLNet, Zhang, DeepGazeII, MSINetの結果と差分があります。
これらモデルは映画の特徴を学習するのに適していないデータセットで学習されており、映画の重要な時間的特徴を抽出できていないことを示しているように見えます。

出典:Where to look at the movies : Analyzing visual attention to understand movie editing
キャプション:Figure 9: An example of failure case in ShawshankRedemption.
https://arxiv.org/pdf/2102.13378.pdf

この研究は、動画のコンテキスト情報や高レベルの映画情報を抽出する手助けとなる可能性があり、ストリーミング用のビデオ圧縮や自動ビデオ要約など、画像処理分野の複数の分野に大きなメリットがあると考えられます。

さいごに

今回は3つ、デモと論文より視線に関わる事例と研究をご紹介いたしました。

Brain Techの分野とも非常に関係の深い視線は、今後マルチモーダルな情報元の一つとしてより利用されていくでしょう。
最近もアイコンタクトとコミュニケーションの関係性や、自然刺激における視線と脳活動の関係性のように、視線データは社会学や生物学、そして医学など様々な学問領域にわたり活用されています。

このような研究が、近い将来我々の住みよい生活に活かされていくことが楽しみでなりません。

 

■ 本ページでご紹介した内容・論文の出典元/References

Philipe A. Dias, Damiano Malafronte, Henry Medeiros, Francesca Odone,“Gaze Estimation for Assisted Living Environments ”,Figure 4. Examples of gaze.,Figure 7. Examples of results for our gaze.,
https://arxiv.org/pdf/1909.09225.pdf

Alexandre Bruckert, Marc Christie, Olivier Le Meur,“Where to look at the movies : Analyzing visual attention to understand movie
editing”,Figure 1: Examples of different camera angles.,Figure 2: The nine framing sizes.,Figure 3: Examples of saliency heatmaps created from the collected fixation points.,Figure 9: An example of failure case in ShawshankRedemption.,
https://arxiv.org/pdf/2102.13378.pdf

 

論文を活用した事例はこちら

株式会社SPACE様事例
アイシン・エィ・ダブリュ株式会社様 AI活用事例
アイシン・エィ・ダブリュ工業株式会社様事例

関連記事

*テックブログAI女子部*
JSAI2020 約900本の論文からピックアップ!~AIの説明性とシステム化について~

*テックブログAI女子部*
5分でわかる姿勢推定モデルと応用事例