
横河電機株式会社様(以下、横河電機様)では、近年の開発の大規模化に対応するため、開発プロセスで生じた開発管理データ、リリース済み製品の品質管理データ、SaaSの利用ログなど、さまざまなデータの分析を進めることになりました。本記事では同社における統合的な活用基盤の導入の検討・社内に分散したデータを統合するデータパイプラインの構築・メンバーの誰もがデータを活用できる環境に向けての、開発部隊の軌跡をご紹介します。
※本記事は、2024年2月開催の「Macnica Data・AI Forum 2024冬」の講演を基に制作したものです。




Databricksとの出会いで劇的に変化した、データとの関わり方
山本:今回はデータ基盤の導入により、データの一元管理を成功させた横河電気様に、その要因をうかがっていきます。まずは桑田様、本取り組みについてご説明をお願いいたします。
桑田:私たちがデータ基盤導入に至った背景には、4つの目的がありました。1つ目は、プロジェクト単位で管理されているデータの集約。2つ目は、分析・可視化を行うためのデータ加工の負担軽減。3つ目は、人力で行うことが多かったデータ更新の自動化。4つ目は、必要なデータをダッシュボードで可視化し、開発現場の意思決定に役立てることです。

基盤の導入前に、分析対象となるデータソースの課題として挙がったのが以下の4つです。データが個人やプロジェクト別に管理され、保管場所やファイル形式が多種多様になったり、似たようなデータが複数存在したりといった問題が生じていました。また、データの保管場所にアクセスする際にはツール間の連携が必要になるのですが、その都度情報システム部門に承認を求めなければならず、場合によってはそれが却下されるという社内セキュリティの壁もありました。このような「データの散らばり・管理の複雑化」といった課題を解決するために、データパイプライン構築の計画を始めました。

こちらは、私たちのデータパイプライン構築までの活動スケジュールです。

2022年4月から活動を始め、10月までデータパイプライン構築のためのデータコネクタやデータ収集方法を調査していたのですが、難航していました。しかし、11月にデータ収集から可視化までを行えるSaaS型データ統合基盤“Databricks”をマクニカ様からご紹介いただき、転機が訪れます。約1ヶ月のPoCで既存の分析データを再現できるかなど、導入効果を検証し、2023年1月にDatabricksの正式導入を決定しました。
導入後もマクニカ様のサポートを受けつつ、まずは開発用ワークスペースの構築から進めました。やがて新規プロジェクトでの利用が決まり、開発データの分析・可視化・ダッシュボードの作成を行い、マネジメント層にも提供しました。さらに2023年の4月からは既存プロジェクトも協業し、部署横断での分析・可視化にも挑戦しています。
また、組織内のデータ分析を活性化させるため、データ分析の基礎知識やDatabricksの使用方法について、教育やハンズオンも随時実施してきました。この取り組みでは教育用のワークスペースを構築したうえで運用ルールを制定し、ユーザーがそれに従うことを義務付けています。ハンズオンの講師はPoCに参加したメンバーや、マクニカ様に依頼しました。

データパイプラインの構築においては、やはり活動当初から行っていたデータソースの接続やデータの集約が上手くいきませんでした。このときの私たちは市販のツールを用いた実装を試みたのですが、社内セキュリティの壁に阻まれ、断念しました。
一方で、上手くいった要素としてはメンバーの多くがソフトウェアエンジニアだったため、市販ツールの利用から独自開発に方針転換できたことや、Databricksを介した各種対応をすばやく行えたことが挙げられます。社内にAWSやSQL、Pythonに少なからず知見をもつ人材がいたことも、追い風になったと思います。
現在は、作ったデータパイプラインを新規・既存の開発プロジェクトの両方で活用しています。まず新規の方では、開発の進捗状況をダッシュボード化することで、遅れや各タスクに割かれている工数を把握できます。そして、既存の方では障害データを用いることで、その対応状況の分析・可視化を行っています。
結果として、データパイプラインの構築により、さまざまなメリットを得ることができました。構築したパイプラインは使われないと意味のないものなので、組織内でデータ分析・可視化をより身近にしていくために、今後も継続して活動を行っていこうと考えています。

データパイプライン構築の軌跡
山本:ここからはデータにまつわる課題や対策を3つのテーマに分け、対談形式で深堀りしていきます。先ほど桑田様にお話いただいた部分も含め、当初の課題や改善された点、そして今後の運用や育成など、組織作りについても詳しく伺えればと思います。

データ分析実現までの課題
山本:まず1つ目は、データソースから分析ができるようになるまでの苦労についてです。藤原様、お願いいたします。
藤原:システムから出てくるログデータに関しての課題は少なかったです。ただ、人が作ったデータの送信にあたっては、必要データの所在を関係者に訊かなければならなかったり、中身の確認にかかる時間を読めなかったりしていました。各自がそれぞれの目的をもって作ったデータなのでもちろん価値はあるのですが、それらを価値のあるものとしていかに整備していくかが課題となっていました。

山本:人の手が加わることで独自のルールや扱い方が生まれ、必要なデータを探すのに時間を要していたことが悩みだったのですね。横河電機様の場合は膨大なプロジェクトが並行して進んでいるので、それがより顕著だったのではないでしょうか。また、必要なデータにたどり着いたあとも、クレンジングや加工にも課題があったとのことですが、実装を担当されていた桑田様から見ていかがでしょうか。
桑田:クレンジングではファイル形式によって使用ツールが異なることで、動かすまでに時間がかかったり、対応可能な人が限定されたりしたので、それも複雑化の要因だったと思っています。さらに、どんどん増えていくデータの処理に丸一日かかってしまうといった問題もありました。
藤原:いわゆる属人化ですね。特にExcelなどは退職した人がVBAを駆使して作ったものだと、かなり問題になりました。
データ基盤を導入
山本:そうした状況を解決するため、データのパイプライン構築・一元管理に取り組まれていたということですね。2つ目のテーマであるデータ基盤導入はマクニカがご支援した部分となりますので、ここは太田さんからご説明いただきます。
太田:こちらのスライドは、従来のデータ基盤とSaaS型データ基盤の違いを比較したものです。今回、横河電機様に導入していただいたのは後者となります。

まず、従来のデータ基盤では蓄積されるであろうデータ量を見積もり、それに耐えられるマシンのスペックや台数を算出し、構築計画を立てる必要があります。さらには情報システム部門などへの環境の申請払い出し・各種コンポーネントインストール・複数回にわたる接続テストなどを行わなければならず、実際にデータ基盤を使えるようになるまでには数週間を要していました。
一方、SaaS基盤の場合は非常にシンプルで、AWS上のクラウドに環境用作成用のユーザーと管理者権限を持つユーザーを用意し、その後はGUIの操作でワークスペースやコンピューティング環境の作成を行っていただきました。クラウドフォーメーションと言い、必要なリソースが自動で作成される仕組みが裏で稼働することで、このようなGUIの操作による構築が可能となります。
今回は弊社が手順書を提供し、それを元に横河電機様の担当者の方に構築を依頼したのですが、担当者の方がクラウドの知識もお持ちだったので非常にスムーズでした。構築自体は1日もあれば完了しますので、本来の目的であるデータパイプラインの構築と、その先の分析に注力できるようになります。
山本:横河電機様にはさまざまな課題がありましたが、実際にSaaS型基盤を導入してみて、どんな点が良かったですか。

桑田:必要なデータを探すのに時間がかかっていた問題が、基盤に搭載されているデータカタログ機能で改善されたり、それぞれ別の専用環境を構築しなければ使えないPythonとSQLが、単一のノートブックで両方とも使えるようになったりした点ですね。また、データの収集に関しては差分のみを自動的にロードしてその後の分析に活かせる、オートローダーという機能をご紹介いただきました。通常はPythonのプログラミングなどが必要な部分なので、それが簡単にできたことも非常に助かりました。
山本:基盤の導入によってカタログ化が進み、プロジェクトや個人単位で散らばっていたデータが共通言語化されることで、きれいな分析環境が整えられたのですね。私たちもお客様をご支援する立場として、嬉しく思います。
データ基盤を運用していくために
山本:導入したデータ基盤が真の価値を発揮するためには、その後の運用や分析の定着化が欠かせませんが、これに苦労されているお客様も少なくないと思います。そこで3つ目のテーマでは、導入後の運用面で重要な要素についてお話をしていきます。そのうちのひとつが、先ほど登場した「カタログ管理」の機能です。太田さん、解説をお願いします。

太田:データ基盤を維持・運用するために重要な要素として、適切なデータ管理をあらかじめ考えておくことが挙げられます。たとえば「データ基盤を新しく使いたい」というリクエストのあった人に、新規にアカウントを発行します。そして、その方が分析基盤を利用する際には、あらかじめ「ここを使ってください」というルールを決めておきます。
より具体的に言うなら、サンプルデータを使ったアドホックな解析やAIモデルの作成を行う場合は、学習カタログを使ってもらうわけです。結果、そこには誰が見ても問題のない、公開してもよいデータだけが置かれることになります。
ほかにも、開発用・本番用カタログといった概念があります。前者には開発プロセスや本番で発生した障害の調査経緯で発生したデータを、後者には実際に稼働しているジョブなどで発生したデータがそれぞれ置かれます。また、場合によっては特定のメンバーしか参照できないようなセンシティブなデータも、この本番用カタログに蓄積されます。つまり、本番用カタログはアクセス制御を強化し、セキュリティ対策をしておくことも重要です。
スライドの一番下にある管理者用カタログには、データ基盤が使われることで発生するサーバーログ・アプリログ・監査ログなどが蓄積されます。このようにデータ基盤を用途別に分けておけば利用者が増えた場合にも使いやすく、データ活用の拡大にも繋がっていくと考えています。
山本:データの特性とそれにアクセスするユーザーの部署・役職などに応じて、どのカタログを利用するかを決めておくことが、誰もが簡単に利用するために必要ということですね。これは横河電機様ですでに実践している部分もあると思いますが、いかがでしょうか。
桑田:DatabricksはSaaS型基盤になっているので、ユーザーに分析環境を提供しやすくなったと思っています。通常だと必要なライセンスの払い出しも不要なので、使いたい人にすぐ提供できるのは大きなメリットです。現在は開発用のカタログで一般的な活動をしていますが、学習用に使ってもらうカタログも用意しています。こちらは色々な人が使うので、必ず決められた名前をつけるなど、一定のルールを設けています。
開発用カタログには特に大きなルールはありませんが、プロジェクト単位で使用しているものなので、必ずプロジェクト名を入れるといったかたちで運用している状況です。本番用カタログはまだ用意できていないのですが、今後実装していきたいと考えています。
山本:データ活用が進むと使う人も増えるので、ルールが煩雑になるリスクもありますね。それを軽減するためにも、用途別のカタログ機能は非常に重要になってくると思います。
ここまでは仕組みや機能の話をメインに進めてきましたが、現場ではそれらを活用する人材の育成も非常に重要です。たとえば情報システム部門ならインフラやクラウド、DX推進部門ならプログラムといったように、部門ごとに使用ツールが異なっているがために、各自が異なるスキルを身につけるケースも少なくありません。一方で、横河電機様の場合は実装ができる体制づくりをうまく進めていらっしゃる印象なのですが、そのポイントを伺えますでしょうか。
藤原:クラウド知識・データ分析・プログラミングなどは、4年前ほど前から徐々にスタートしました。クラウド知識に関しては組織全体でワークショップやトレーニングなど、有償無償を問わず、幅広い取り組みを実施しました。すると得意な人・やりたい人が手を挙げてくれたので、そういった意欲や感度の高い方にクラウドのCoE(Center of Excellence)のメンバーになってもらいました。
プログラミングやデータ分析の分野については、PythonやSQLを学習してもらったり、オンラインの学習講座をうまく活用しながら進めてきました。今回は私たちを成功事例として取り上げていただきましたが、やはり時間のかかることなので、何もなくうまくいったということはないと思っています。桑田からも説明がありましたが、CoEが立ち上がっていたり、PythonやSQLを徐々に勉強していらっしゃる方がいたところも含め、今回のスムーズなデータ基盤構築が実現したと強く感じています。また、私たちのようなリーダー層もメンバーに指示を出すだけでなく、自らが率先して学んでいく姿勢が必要だと思っています。

山本:色々な部署に、自らやりたいとおっしゃる方がいたのでしょうか。
藤原:そうですね。技術的な探索活動も組織としてやっていました。
山本:技術に明るい方を特定の組織に集約させるのではなく、4年という長い時間をかけてデータ活用の文化を幅広い部署に浸透させてこられたのは、もともとの企業文化があってこそなのですね。
藤原:スモールスタートではありましたが、始めてみると情報を聞きつけた人たちが集まってきました。そういった場を提供できたのは良かった点かもしれませんね。
まとめ
山本:今回は、「データ分析実現までの課題」「データ基盤を導入」「データ基盤を運用していくために」という3つのテーマに沿ってお話を伺ってきました。特に、藤原様からコメントいただいた人材育成に関しては時間はかかるものの、最終的にはデータ分析や活用を進めるうえで非常に重要なポイントです。横河電機様でデータの集約などがスムーズに進んだのも、やはり人材の利が大きかったからだと思います。今回の取り組みで使ったテクノロジーについて、太田さんからご紹介いただけますでしょうか。
太田:今回は横河電機様にDatabricksを採用いただき、それをAWSクラウド上に構築しました。これにより各種データソースに対し、ファイルコピーやREST APIなどの手法でデータを取得し、S3パケットと同期することでDatabricks側にデータを取り込むことができました。
次にデータパイプラインを構築することで、データの収集・加工・蓄積・可視化の自動化が実現できました。その際には、PythonやSQLといったプログラミングスキルを活かせたと考えています。このように、ツールやテクノロジーを使うために必要なスキルを持った人材を育成されていたことが、成功体験に繋がったと私たちも考えています。

山本:最後に藤原様、今後の展望についてお話いただけますでしょうか。
藤原:せっかく作ったデータ基盤なので、どんどんユーザーが増えて、うまく活用してほしいです。そのためにもより良いガイドラインポリシーを作りつつ、ユーザーを制限するというよりは、安全に活用してもらうためのルールを作りたいですね。また、開発プロジェクトでは多くのダッシュボードを作ろうとしています。こういったものを活用していくためにも、プロジェクトのマネジメントをしている方・リーダー・メンバーなど、各ロールに毎日ダッシュボードを見ていただき、しっかりと意思決定に役立っていけるとよいなと思っています。