
RAGの活用における課題点
RAGシステムの評価には多くの課題があります。情報の正確性や関連性を客観的に測定することは複雑で、コンテキストに依存する要素が多いため、単純な指標だけでは十分な評価ができません。異なるユースケースや要件に対して、適切な評価基準を設定することも困難です。また、評価用データセット(質問・模範解答ペア)を大量に準備するのも多大なコストが発生します。

自動評価
自動評価システムは、RAGの性能を効率的かつ一貫して測定するための手法です。これにより、大規模なテストケースに対して迅速な評価が可能となり、継続的な品質モニタリングを実現できます。さらに、評価用データセットは言語モデルにより自動生成することもできます。自動評価は、人手による評価の補完として機能し、開発サイクルの短縮化に貢献します。
ツール:
自動評価にはRagasなど、RAGシステム向け自動評価フレームワークを用います。この評価ツールは、Faithfulness(忠実性)、Answer relevancy(回答の関連性)、Context precision(コンテキストの適合率)、Context recall(コンテキストの再現率)などの重要な指標を自動的に測定し、システムの性能を多角的に分析し、改善点を特定することができます。
RAGの精度自動評価導入の利点:
自動評価の主な利点は、評価の効率性と一貫性にあります。人手による評価と比較して、大量のデータを短時間で処理できる上、評価基準が統一されているため、結果の比較が容易です。また、継続的なモニタリングが可能となり、システムの性能変化を迅速に検出できます。開発サイクルの高速化にも貢献します。この評価により、言語モデルには何を用いるか、文章埋め込みモデルには何を用いるか、文章分割サイズはどの程度が良いかなどを決定することができます。
RAGの精度自動評価の欠点:
自動評価システムにも限界があります。特に、文脈理解や微妙なニュアンスの把握において、人間の判断力には及びません。また、予期せぬエッジケースへの対応が困難で、評価指標が実際のユーザー体験を完全には反映できない可能性があります。さらに、評価基準の設定や調整に専門知識が必要となる場合があります。
サービスの内容
1ヶ月間でRAGの精度評価の自動化実現を伴走させて頂くサービスです。
具体的にはNVIDIA NIMを使用して、社内ドキュメントから質問と回答の合成データを生成し、Ragasを用いて、ドメイン固有のタスクの精度評価を自動化します。
Jupyter Notebook形式のサンプルコードやメール/チャットでのQ&A対応と定期的なミーティング、NVIDIAのNIMの使い方などのレクチャーを通して、効率的にRAGの精度評価の自動化の実装方法が学べるプログラムとなっております。
サービスの流れ
・1週目:概要説明
・2週目:サンプルコード(Jupyter Notebookでご提供)を動作させる
・3週目:お客様の業務課題に沿ったテスト用データセットを自動生成し、それを用いて精度評価
・4週目:実環境で運用する際の課題を考察
