メインコンテンツに移動

コスト、レイテンシー、精度を最適化

あらゆる段階で AI を評価および最適化するツールを使用することで、コストを管理しながら精度とパフォーマンスを向上

パフォーマンスを決して犠牲にしない

Amazon Bedrock は、コスト、レイテンシー、精度の適切なバランスを実現し、過剰なコストをかけずに、生成 AI アプリケーションの効率的な実行を実現するのに役立ちます。モデル蒸留、インテリジェントプロンプトルーティング、およびプロンプトキャッシュ、ならびにオンデマンド、バッチ、プロビジョンドスループットを含む柔軟な推論オプションなどの機能を備えた Amazon Bedrock では、ユースケース全体にわたって最適化し、自信をもってスケールできます。リアルタイムワークロードでもバッチワークロードでも、Amazon Bedrock を利用すると、よりスマートで、よりスリムで、よりコスト効率の高い AI システムを構築できます。

Missing alt text value

パフォーマンスを改善します。コスト削減します。

プロンプトキャッシュを使用して、サポートされているモデルのコストを最大 90% 削減し、レイテンシーを最大 85% 低減

基盤モデル (FM) の多くのユースケースでは、API コール間でプロンプト (プレフィックス) の特定の部分を再利用します。プロンプトキャッシュを使用すると、サポートされているモデルで、リクエスト間で繰り返されるこれらのプロンプトプレフィックスをキャッシュできます。このキャッシュにより、モデルは一致するプレフィックスの再計算をスキップできます。

  • 複数のユースケースでのパフォーマンスを改善
  • プロンプトの関連部分をキャッシュして、入力トークンのコストを削減
  • Amazon Bedrock の他の機能と統合することで、複数ステップのタスクや長めのシステムプロンプトを高速化し、応答速度を低下させることなく、エージェントの動作を改善できます
Missing alt text value

生成 AI アプリケーションのプロンプトエンジニアリングを高速化

Amazon Bedrock Prompt Management は、プロンプトの作成、評価、バージョニング、実行を簡素化して、デベロッパーが、FM からユースケースに最適な応答を取得できるようにします。

  • Prompt Management を使用すると、さまざまな FM、設定、ツール、指示をテストできます
  • Prompt Management のプロンプト最適化により、プロンプトが自動的に書き換えられ、精度が向上し、FM からの応答がより簡潔になります
  • プロンプトをデプロイしなくても、最新の FM を使用して瞬時にテスト
  • Amazon SageMaker Unified Studio で生成 AI アプリケーションを迅速に構築し、共同でプロンプトを作成
Missing alt text value

インテリジェントプロンプトルーティングにより、低コストでパフォーマンスを最大化

Amazon Bedrock Intelligent Prompt Routing は、モデルファミリー内のさまざまな FM にプロンプトをルーティングし、優れた質の応答とコストの最適化をサポートします。インテリジェントプロンプトルーティングを使用すると、精度を損なうことなくコストを最大 30% 削減できます。

  • Amazon Bedrock は、最も低コストで、目的の応答を返す可能性が最も高いと予測されるモデルにリクエストを動的にルーティングします
  • Amazon Bedrock によって提供されるデフォルトのプロンプトルーターを選択するか、独自のプロンプトルーターを設定することにより、開発にかかる労力を削減し、さまざまなモデルをテストして、複雑なオーケストレーションワークフローを作成できます
  • 完全に追跡可能なリクエストで簡単にデバッグ
Missing alt text value

Amazon Bedrock の蒸留モデルは、元のモデルよりも最大 500% 高速で、最大 75% 安価で、RAG などのユースケースでの精度の低下は 2% 未満です

さらに小規模かつ高速で、費用対効果の高いモデルを使用して、Amazon Bedrock の最も高度なモデルに匹敵するユースケース固有の精度を実現できます。

「生徒」モデルを、必要な精度を備えた「教師」モデルでファインチューニングします。

  • 独自のデータ合成で抽出モデルのパフォーマンスを最大化
  • 本番環境のデータを使用することでコストを削減モデル蒸留では、プロンプトを提供し、それを使用して合成応答を生成し、生徒モデルをファインチューニングすることができます
  • エージェントの予測精度を呼び出すブースト関数。より小規模なモデルでも関数の呼び出しを正確に予測できるようになり、応答時間を大幅に短縮し、運用コストを削減できます。
Missing alt text value