20190423-arih-column-thum

こんな方におすすめの記事です

最新のAI動向/流行を調査している方

この記事を読み終えるのに必要な時間

3分

はじめに

こんにちは!マクニカ AIリサーチセンターのBBです。

オフィスにあるワークステーションの熱がすごいことになっています。
果たして私たちは夏を乗り越え生き残れるのでしょうか?
ブログの更新頻度が落ちてきたら、祈ってください…

それでは、AIエンジニア必見のイベントNVIDIA GTC 2019 の参加レポート記事最終回です!
機械学習や前処理でGPUをフル活用するためのライブラリ群「RAPIDS」と、機械学習/ディープラーニングなどのモデリングとデータの説明性についてのセッション内容をご紹介します。

RAPIDS

「RAPIDS」とはGPUの演算能力を、データの読込、前処理、解析、可視化というAI/データサイエンスのすべてに対応させるライブラリ群です。
ディープラーニング以外もGPUによって高速化されるということで、昨年の発表時に我々のAIエンジニアチームが沸いたのを覚えています。。
そのRAPIDSが既に実使用可能なところまで来ているということで、RAPIDSの関連セッションが個人的な今回の目玉になっていました。

RAPIDSは2019年3月現在でv0.6がリリースされています。
CUDA/C++で実装されていますが、言語バインディングとしてpython環境が整備されているので、使い勝手は他の標準ライブラリと大きく変わりません。
今回は特徴的なRAPIDSのライブラリをご紹介します。

■ cuDF cuIO

データ読込、結合、集約、フィルタリングなどのいわゆるデータ前処理に関するライブラリです。データはDataFrame形式で扱われます。

■ cuML

機械学習アルゴリズムと基本的な数学に関するライブラリです。v0.6は以下のアルゴリズムに対応しています。

  • GBDT
  • GLM
  • ランダムフォレスト
  • K-Means
  • K-NN
  • DBSCAN
  • UMAP
  • カルマンフィルタ
  • PCA
  • SVD( v1.0ではARIMAモデルとホルトウィンタース法に対応 )

■ cuGraph

グラフデータの分析に関するライブラリです。範囲が広く、v0.6は以下に対応しています。

  • Jaccard
  • Weighted Jaccard
  • Louvain
  • SSSP
  • BFS( v1.0でSSWP、Triangle Counting、Subgraph Extractionに対応予定 )

■ cuXfilter

こちらは各セッションであまり触れられませんでしたが、"Crossfilter"を元にGPUで高速化した、データのフィルタリング+可視化を行うライブラリです。
1000万~2億行x複数列のデータセットに対して、内容確認/ヒストグラム計算/groupbyの各操作を1秒未満で実行・可視化することもできるそうです。 (※実行環境は調査中です。)

 

社内の NVIDIA DGX-2 と一緒と併用して、どれくらい分析が快適になるかの検証ブログをアップする予定です。頑張ります。

モデリング x データ x 説明性

この話題のセッションもいくつかありました。
まず、モデルを説明できるかどうかは以下3点を満たすかどうかだというセッションがありました。

  • Natural Representations・・・モデリングする事象は論理立てて説明できるか
  • Modular and Composable・・・説明したいパラメータは代数的に置き換えられるか(モジュール化)
  • Constructive・・・モジュールは計算で最適化できるか

つまり、学習するパラメータを、なぜそのパラメータが重要なのかを説明できるように導出する必要があるということです。
特徴量設計が重要ということですね。

確かにディープラーニングは詳細な特徴量設計を構築&記述しなくても済むという点がメリットですが、データとモデルの判断結果を紐づけて理解できるようにしたいのであれば、特徴量の導出を飛ばさない方が良いよという考え方ですね。
基本に忠実な考え方ですが、改めて納得してしまいました。

ドローンのPD制御のパラメータをきちんと導出して、そのパラメータを特徴量(学習データ)としてディープラーニングでモデリングした例をいくつか見ました。
PD制御と比べて学習済モデルによって制御されたドローンの動作の方がメリハリがあるように見えました。
シンプルな問題に対するデモかもしれませんが、説得力があります。

 

さて、全3回のNVIDIA GTC 2019 参加レポートでしたが、皆さまもGTCへ参加した気分になれましたでしょうか!

今回はご紹介していませんが、自動運転開発に関するセッション/展示も驚かされるものばかりでしたし、ポスターセッションからも各業界/研究機関の先進的な取り組みを広く知ることができます。
ハードウェアから先行研究/実例までAIに関する全てのトレンドが集約されたイベントですので、来年は/来年も是非会場へ足を運んでみてください!

なお、初回でご紹介したJetson Nanoの開発キットは以下のリンクから購入できます。
その他NVIDIA GPU製品の詳細情報も入手できますので是非ご覧ください!