Amazon Bedrock モデル評価の LLM-as-a-Judge の一般提供を開始
Amazon Bedrock モデル評価の LLM-as-a-Judge 機能の一般提供が開始されました。Amazon Bedrock のモデル評価では、モデルを評価、比較して、ユースケースに適切なモデルを選択できます。Bedrock で利用できる複数の LLM の中から、1 つのモデルをジャッジとして選択し、評価モデルと評価対象モデルを適切に組み合わせることができます。正確性、完全性、専門的なスタイルとトーンなどの品質メトリクスや、有害性、回答拒否などの責任ある AI のメトリクスを選択できます。サーバーレスモデル、Converse API と互換性のある Bedrock Marketplace モデル、カスタマイズおよび抽出されたモデル、インポートされたモデル、モデルルーターなど、Amazon Bedrock で利用可能なすべてのモデルを評価できます。複数の評価ジョブで結果を比較することもできます。
*機能が一新され、より柔軟に* 現在、評価ジョブ用の入力プロンプトデータセットに既に取り込まれている独自の推論応答を持ち込むことで (「独自の推論応答の持ち込み」)、ホストされている場所を問わずすべてのモデルやシステムを評価できます。Amazon Bedrock モデルからの応答や、Amazon Bedrock の外部でホストされている任意のモデルまたはアプリケーションからの応答でも構いません。これにより、評価ジョブで Amazon Bedrock モデルを呼び出す必要がなくなり、アプリケーションのすべての中間ステップを最終的な応答に組み込むことができます。
LLM-as-a-Judge を使用すると、数週間分の時間を節約しながら、人間のような評価品質をさらに低コストで得ることができます。
詳細については、「Amazon Bedrock の評価」ページおよびドキュメントを参照してください。利用を開始するには、AWS コンソールにサインインするか、Amazon Bedrock API を使用してください。