Amazon Bedrock RAG とモデル評価がカスタムメトリクスをサポート開始
Amazon Bedrock の評価では、Amazon Bedrock でホストされているか、マルチクラウドやオンプレミスのデプロイでホストされているかにかかわらず、基盤モデルと検索拡張生成 (RAG) システムを評価できます。Bedrock の評価は、人間ベースの評価、BERTScore、F1 などのプログラムによる評価、その他の完全一致メトリクスのほか、モデル評価と RAG 評価の両方に対応する LLM-as-a-judge も提供しています。LLM-as-a-judge によるモデル評価と RAG 評価の両方において、ユーザーは、正確性、完全性、忠実性 (ハルシネーション検知) などの組み込みメトリクスのほか、回答拒否、有害性、固定観念などの責任ある AI メトリクスの幅広いリストから選択できます。しかし、これらのメトリクスを異なる方法で定義したり、ニーズに合った新しいメトリクスを作成したりしたい場合があります。たとえば、ユーザーは、アプリケーション応答が指定のブランドボイスを遵守しているかどうかを評価するメトリクスを定義したり、カスタムのカテゴリルーブリックに従って応答を分類したりしたい場合があります。
Amazon Bedrock の評価では、LLM-as-a-judge を活用して、モデル評価と RAG 評価の両方にカスタムメトリクスを作成して再利用できるようになりました。ユーザーは独自の判断プロンプトを作成したり、独自のカテゴリまたは数値の評価スケールを定義したり、組み込み変数を使用して実行時にデータセットや GenAI 応答からのデータを判断プロンプトに注入したりすることで、評価におけるデータフローを完全にカスタマイズできます。用意されているクイックスタートテンプレートを使用して新しい判断プロンプトテンプレート/ルーブリック作成のヒントを得ることも、自分でゼロから作成することもできます。
使用を開始するには、Amazon Bedrock コンソールにアクセスするか、Bedrock API を使用してください。詳しくは、ユーザーガイドをご覧ください。