Amazon Bedrock が Priority および Flex 推論サービス階層を導入
Amazon Bedrock は本日、さまざまな AI ワークロードのコストとパフォーマンスを最適化する 2 つの新しい推論サービス階層を導入しました。新しい Flex 階層は、モデル評価や内容の要約など、タイムクリティカルではないアプリケーション向けの費用対効果の高い料金設定です。一方、Priority 階層は、ミッションクリティカルなアプリケーションに優れたパフォーマンスと優先処理を提供します。Priority 階層をサポートするほとんどのモデルでは、Standard 階層と比較して、1 秒あたりの出力トークン (OTPS) レイテンシーが最大 25% 向上します。これらに加えて、日常的な AI アプリケーションで高信頼のパフォーマンスを発揮する、既存の Standard 階層があります。
これらのサービス階層は、組織が AI を大規模にデプロイする際に直面する主な課題に対処します。Flex 階層は、レイテンシーが長くても差し支えない非インタラクティブなワークロード向けの設計なので、モデル評価、コンテンツの要約、ラベル付けと注釈、および複数段階から成るエージェントワークフローに最適で、Standard 階層より低料金です。需要が高い時期には、Flex リクエストの優先度は Standard 階層に比べて低下します。Priority 階層は、一貫性のある迅速な対応が不可欠である、ミッションクリティカルなアプリケーション、リアルタイムのエンドユーザーインタラクション、インタラクティブなエクスペリエンスに最適です。需要が高い時期には、Priority リクエストは、他のサービス階層よりも割高な価格で優先して処理されます。これらの新しいサービス階層は、現在、OpenAI (gpt-oss-20b、gpt-oss-120b)、DeepSeek (DeepSeek V3.1)、Qwen3 (Coder-480B-A35B-Instruct、Coder-30B-A3B-Instruct、32B dense、Qwen3-235B-A22B-2507)、Amazon Nova (Nova Pro および Nova Premier) など、さまざまな主要な基盤モデルで利用できます。Amazon Bedrock のこれらの新しいオプションにより、お客様はコスト効率とパフォーマンス要件のバランスをより細かく制御できるようになり、最もクリティカルなアプリケーションに最適なユーザーエクスペリエンスを確保しながら、AI ワークロードを経済的にスケールできるようになります。
Amazon Bedrock Priority および Flex 推論サービス階層が利用可能な AWS リージョンの詳細については、AWS リージョン表をご覧ください。