Amazon Bedrock で RAG 評価のサポートを開始 (一般提供)
Amazon Bedrock で RAG 評価の一般提供が開始されました。お客様は Amazon Bedrock ナレッジベースまたはカスタム RAG システムに基づいて構築された検索拡張生成 (RAG) アプリケーションを評価できます。検索とエンドツーエンド生成のいずれかを評価できます。評価には LLM-as-a-judge が使用されており、複数のジャッジモデルから選択できます。検索の場合は、コンテキストの関連性や対象範囲などのメトリクスを選択できます。エンドツーエンドの検索と生成の場合は、正確性、完全性、忠実性 (ハルシネーション検知) などの品質メトリクスや、有害性、回答拒否、固定観念などの責任ある AI メトリクスを選択できます。また、複数の評価ジョブを比較することで、チャンキング戦略やベクトル長、リランカー、異なるコンテンツ生成モデルなど、さまざまな設定を使用して、ナレッジベースやカスタム RAG アプリケーションを改善することができます。
*機能が一新され、より柔軟に* 本日より、Amazon Bedrock の RAG 評価では、Bedrock ナレッジベースに加えてカスタム RAG パイプライン評価がサポートされるようになりました。お客様はカスタム RAG パイプラインを評価する際に、入力と出力のペアと取得したコンテキストを入力データセットの評価ジョブに直接取り込めるようになりました。これにより、Bedrock ナレッジベースを呼び出す必要がなくなります (「独自の推論応答の持ち込み」)。また、Bedrock ナレッジベースの評価に引用精度と引用カバレッジのメトリクスが追加されました。Bedrock ナレッジベースを評価の一環として使用する場合は、Amazon Bedrock ガードレールを直接組み込むことができます。
詳細については、「Amazon Bedrock の評価」ページおよびドキュメントを参照してください。利用を開始するには、Amazon Bedrock コンソールにログインするか、Amazon Bedrock API を使用してください。