学ぶ
AWS での GenAIOps に関するスタートアップ向けガイドパート 3: 優れた本番稼働に向けて

AWS での GenAIOps に関するスタートアップ向けガイドパート 3: 優れた本番稼働に向けて

このコンテンツはいかがでしたか?

Startup’s guide to GenAIOps on AWS part 3

パート 1 とパート 2 では、MVP のための最初の本番稼働デプロイに向けて GenAIOps 基盤を確立しました。これらのプラクティスを実装すれば、採用の増加、有料の顧客、およびすべての創設者が夢見るプロダクトマーケットフィットのシグナルなどの結果が見られるでしょう。しかし、成功には新たな課題が伴います。

初期段階で提供されていたシンプルさが、今ではスケーリング上のプレッシャーに直面しています: つまり、リクエスト量の急増に対する信頼性の維持、多様なユーザーワークロード全体での一貫したパフォーマンスの確保、成長に伴う複雑性の管理などです。パート 3 では、イノベーションのスピードを犠牲にすることなくスケーリング需要に対応する方法を示します。

パイプラインを進化させる

優れた本番稼働に到達することは、より多くのトラフィックを管理することだけではありません。それは、大規模でも高い信頼性で、効率的に、かつ予測どおりに機能するパイプラインを構築することです。これは、手作業によるプロセスを自動化し、体系的な実験とデプロイを確立し、何が起きているのかだけでなくその理由を理解するためのオブザーバビリティを実装することを意味します。以下に示すように、この進化は、プロダクトマーケットフィットに向けた MVP から持続可能な成長を可能にする自動化システムまでに至った重要な点より、6 つのパイプラインの段階全体での運用上のシフトを通じて発生します。各段階をどのように進化させるかを見てみましょう。

データエンジニアリングと管理: 継続的に進化するデータ資産へシフトする

現在フローしている本番稼働トラフィックを使用して、静的データセットを、実際のユーザーとのやり取りを活用して継続的に強化されたリソースに変換する時が来ました。

体系的な本番稼働ログマイニング: モデル選択を拡張し、評価データセットを数百の厳選された例から数千の実際のテストケースに移行させます。人間の介入を必要とする会話や、望ましい行動を示すクエリなど、価値の高いファインチューニングの例を収集します。Amazon SageMaker Ground Truth Plus を使用して本番稼働の例を厳選し、監視されたファインチューニングを行います。

自動化された RAG データパイプライン: Amazon EventBridge を使用して、ナレッジベースの手動データソース更新をイベント駆動型ワークフローに置き換えます。Amazon Bedrock データオートメーションを使用すると、ドキュメント、画像、音声、動画を含むワークフローを大規模に自動化できます。クエリが、関連するコンテキストの検索に失敗したり、低い信頼度スコアを示したりする場合は、失敗を RAG 評価テストケースとして自動的にキャプチャします。

役に立つリソース:

開発と実験: 体系的なイテレーションを支持する

運用の規模が拡大するにつれて、手作業によるプロトタイピングから体系的な実験へと進む必要があります。これには、継続的に改善点を見つけるために、AI スタック全体で並行してテストを実行することが含まれます。

継続的なモデルと迅速な最適化: モデルの適切なサイジングを継続的に実施し、新しいモデルの出現や要件の変化に応じて選択肢を再評価します。タスクの複雑さをモデルの機能に自動的に合わせるマルチモデルシステムを選択します。クエリ分類、ユーザーコンテキスト、パフォーマンス履歴に基づく専用テンプレートを使用した動的ルーティングを通じて、この効率性をプロンプトに拡張します。精度、レイテンシー、コストといった多次元のパフォーマンスメトリクスを追跡して、モデルの適切なサイジングやプロンプトバリアントの切り替えに関するデータ主導の意思決定を実現します。

コンテキスト改良ワークフロー: 外部の知識を検索してモデルをカスタマイズするための反復可能な最適化プロセスを確立します。RAG 最適化では、高度なチャンク戦略と検索アプローチ (ハイブリッド検索、メタデータのフィルタリング、クエリの再定式化、再ランク付け) をテストして、構造化された実験を実施してから、検索の精度とレイテンシーに基づいて反復処理を行います。例えば、768 または 512 のディメンション対 1536 のディメンションをテストすることで埋め込みサイズを最適化して、精度を維持しながらストレージコストと検索レイテンシーをカットします。モデルのカスタマイズでは、Amazon Bedrock を活用して、ワークフローを合理化します。それには、継続的な事前トレーニングを使用してモデルをドメイン固有の語彙に適合させたり、監督下のファインチューニングを使用してタスク固有のパフォーマンスを向上させたりします。Amazon SageMaker AI は、ニーズの増大に応じてトレーニングをより細かく制御します。

毎月の RAG パフォーマンスレビューから四半期ごとのモデルカスタマイズ評価まで、アプリケーションを使用してコンテキストシステムを進化させるための定期的な最適化サイクルを確立します。

複雑なワークフローのためのエージェントオーケストレーション: エージェントが多様なプロダクションワークロードを処理するので、単一エージェントアーキテクチャでは複雑さの限界に直面します。請求の問い合わせと技術的なトラブルシューティングの両方を試みるエージェントは、コンテキストとツールセットの相反に悩まされています。タスクの複雑度別に完了率を監視する: エージェントが 2～3 回のツールコールを必要とするタスクの 85% で成功したけれども、5 回以上のコールで 45% に低下した場合、分解のしきい値が見つかっています。ルーティングエージェントが請求の質問を支払いエージェントに委任し、技術的な問題のフローをサポートエージェントに委任する場合は、専用のマルチエージェントシステムをデプロイします。

Amazon Bedrock AgentCore は、同時ユーザーのセッション分離、複雑な推論のための延長ランタイム、およびエージェント間の統合オブザーバビリティを提供することで、本番稼働のスケーリングの課題に対処します。逸脱するコストを防ぐには、タイムアウトメカニズムを実装して、エージェントのワークフローと実行におけるブロッキングの失敗の可能性を減少させます。

本番稼働の混乱がない体系的な実験: 複数の実験を同時に実行することは、テストの分離と本番稼働トラフィックの保護に依存しています。AI コンポーネントのロールアウトを制御するには、AWS AppConfig を介して機能フラグをデプロイします。これにより、新しい RAG 検索戦略をテストしたり、ユーザーセグメント全体で同時にプロンプトバリアントを評価したりできます。

信頼性の高い実験結果を確保するには、本番稼働データとトラフィックパターンを反映した分離されたテスト環境を作成することから始めます。次に、精度やレイテンシーなどの技術的側面と、満足度やエンゲージメントなどのユーザー行動メトリクスの両方にわたる標準化されたメトリクスを確立します。実験を比較するときは、評価に対して総合的なアプローチを行います。例えば、2 つの RAG 検索方法を比較する場合、より良いレイテンシーでの若干の精度の改善の方が、増加したレイテンシーでの大きな精度の増大よりも、全体的なユーザー満足度が高くなる可能性があることを考慮してください。これにより、実験の成果には、分離されたメトリクスだけでなく、実際の影響が反映されるようになります。

役立つリソース:

テストと評価: 継続的な品質ループを作成する

特に週に複数回リリースする場合、手作業によるテストはすぐに管理できなくなる可能性があります。リリース前の段階から継続的なフィードバックループに移行することで、イテレーションが速くなり、不適切なデプロイが顧客の信頼を損なうことを防ぎます。

自動化された評価パイプライン: パート 2 の評価アプローチを、CI/CD パイプラインと統合された自動化されたテストスイートに変換します。コードをデプロイするたびに、コンポーネントとエンドツーエンドの評価が自動的に開始され、精度、タスク完了、および応答品質が測定されます。夜間にリグレッションテストをスケジュールすることで、ナレッジベースの更新やデプロイサイクル外のデータ更新からの問題をキャッチします。レイテンシーを増加させたり正確性を低下させたりするデプロイをブロックするために、品質しきい値を設定することを忘れないでください。テストの失敗をデータパイプラインにフィードバックすることで、評価範囲を広げることができます。

責任ある AI 評価戦略: 機能の正確さだけでは不十分です。本番稼働システムは安全で信頼できるものでなければなりません。自動化されたテストを拡張して、事実に基づく根拠のあるチェックによるハルシネーション検出、敵対的テストケースを介したプロンプトインジェクション耐性、および有害コンテンツの評価を含めるようにします。パフォーマンスと安全性を大規模にサポートするその他の戦略には、定期的なレッドチーミングの演習を実施して危険な行動を特定したり、責任ある AI メトリクスのために本番稼働アウトプットをスポットチェックしたりすることなどがあります。

役立つリソース:

デプロイとサービス: 耐障害性を備えたスケーリング

本番環境のトラフィックが拡大するにつれて、アプリケーションをオンラインにするだけから、信頼性とパフォーマンスを維持する戦略の実装へとデプロイを進める必要があります。

スケーラブルなデプロイ戦略: 目標スループット、レイテンシーのパーセンタイル、劣化しきい値などのパフォーマンス要件の定義から始めます。次に、持続的なトラフィック、バーストパターン、およびマルチステップのワークフローをシミュレーションするロードテストを実施します。これにより、パフォーマンスのギャップを特定し、アーキテクチャに関する意思決定を行い、インフラストラクチャ要件を検証できます。

インテリジェントなキャッシュとサービスパターンにより、推論効率を最適化します。Bedrock のプロンプトキャッシュを活用すると、大きなコンテキストブロックを再利用できるようになり、次に、レイテンシーとコストを削減できます。インタラクティブなアプリケーションにはリアルタイム推論を、オフライン分析にはバッチ推論を使用するなどして推論パターンを要件に合わせることも、コストの大幅な削減につながります。

スタック全体の規模に合わせて設計するために、Amazon Bedrock のクロスリージョン推論は、最適な AWS リージョン全体で自動的にリクエストをルーティングし、スループットと可用性を向上させます。一方、SageMaker AI エンドポイントの自動スケーリングは容量を動的に調整し、Bedrock AgentCore Runtime は大規模で安全なエージェントデプロイを提供し、OpenSearch Serverless はベクトルデータベースのコンピューティング機能を自動的にスケーリングします。

デプロイパターンは、完全にロールアウトする前にメトリクスを監視しながらトラフィックの 5 ～ 10% を新しいモデルに公開するカナリアデプロイや、リグレッションからの即時ロールバックを可能にするブルーグリーンデプロイなどのリリースのリスクを軽減することもできます。

耐障害性の高いサービス戦略: スケーラビリティだけでなく、本番稼働システムでは、ユーザーエクスペリエンスを低下させることなく、クォータ制限、一時的な障害、予期しない負荷を処理する必要があります。Amazon Bedrock のクォータを積極的に確認し、制限に達する前に引き上げをリクエストします。Amazon API Gateway を使用してレート制限を実装して、受信リクエストを管理し、公正な使用量を確保します。アプリケーションとモデルの間で Amazon SQS を使用して、需要の変動を吸収し、リクエストが拒否されるのを防ぎます。

モデルカスケード階層を設定することで (プライマリモデル、バックアップモデル、キャッシュされた応答、緩やかに劣化した応答の順)、最適な供給パスが失敗した場合でも、ユーザーが常に応答を受け取れるようにすることができます。さらに、サーキットブレーカーを実装して、失敗した依存関係へのリクエストを停止させます。

役立つリソース:

オブザーバビリティと改良: 継続的な改善を促進する

インサイトによって自動的に改良が開始され、自己改善アプリケーションを作成するクローズドループシステムにより、オブザーバビリティを最大の競争上の優位性にします。

技術メトリクスとビジネスメトリクス全体での統一されたオブザーバビリティ: 相関分析は、システムの振る舞いを全体として理解する上で重要です。そのためには、「モデル A 対モデル B」でなく、「92％の精度でリクエストあたり 0.02 USD のモデル A 対 94％の精度でリクエストあたり 0.08 USD のモデル A 」のように技術メトリクスとビジネスメトリクスを組み合わせた統合ダッシュボードを構築し、それぞれが 30 日間のユーザー保持にどのように影響するかを追跡します。共有テレメトリからロール固有のビューを設計します: エンジニアリングチームはエラー率アラートとレイテンシーの傾向を確認し、製品チームは完了率とユーザーとのやり取りパターンを確認し、経営幹部はやり取りあたりのコストと ROI の相関関係を確認します。つまり、カスタマーサービスボットが機能の立ち上げ時にクエリを 40% 長く表示したり、季節的なパターンでコスト構造が 60% 変化したりした場合、メトリクス間の相関分析によって根本原因が明らかになります。

クローズドループの改善サイクル: 本物の優れた本番稼働は、以下の図に示すように、オブザーバビリティが GenAIOps パイプライン全体にわたる改良を開始するクローズドループシステムを構築することによってもたらされます。

例えば、カスタマーサービスボットのオブザーバビリティは、次のような改善を開始させることができます。

データエンジニアリングと管理: 製品立ち上げのクエリで失敗した応答率が 15% 上昇すると、EventBridge はナレッジベースの同期を開始してソースシステムから最新のドキュメントを取り込みます。
開発と実験: 請求クエリでボットの解決率が 20% 低下した場合、システムは請求に特化したプロンプトバリアントの A/B テストをキューに入れます。
テストと評価: 注文追跡の会話の失敗が 25% 増加すると、失敗したやり取りからテストケースが自動的に生成され、リグレッションスイートに追加されます。
デプロイと提供: トレース分析で、エージェントワークフローの 8% が 30 秒でタイムアウトしたけれども、45 秒で正常に完了したことが示された場合、タイムアウト設定が調整されます。
ガバナンスとメンテナンス: デプロイログで、リリースの 40% が IAM アクセス許可やインフラストラクチャの前提条件の欠如により失敗していることが示された場合、デプロイパイプラインにプリフライト検証チェックが追加され、リリースがブロックされる前に設定の問題が検知されます。

役立つリソース:

ガバナンスとメンテナンス: 安全なイノベーションを実現する

ガバナンスの枠組みは、コストのかかるミスを防ぎながら、スマートなリスクテイクを加速させる信頼できるアドバイザーのようなものである必要があります。顧客の信頼を築く責任ある AI プラクティスを通じて、パート 2 のガードレールを競争上の優位性に変えてください。

自動化されたガバナンスワークフロー: 手作業によるレビューをインテリジェントオートメーションに置き換えて、AWS Step Functions を使用して、プロンプトテンプレートの改良などのリスクの低い更新が自動的にデプロイされ、モデル変更などのリスクの高い更新が人間のレビューを開始させる承認ワークフローを構築します。承認チェーンのキャプチャから監査証跡の管理まで、コンプライアンスの文書化を自動化することもできます。デプロイがポリシーに違反すると、ワークフローが自動的にリリースをブロックし、利害関係者までエスカレーションさせます。

Infrastructure as Code とリネージトラッキング: デプロイに関する知識をバージョン管理されたコードにキャプチャして、AI インフラストラクチャ全体をコード化します。Amazon SageMaker Model Registry を使用してモデルリネージを追跡し、Amazon SageMaker Catalog 機能を使用してデータリネージュを追跡します。ソース文書から処理ステップを介してモデル出力までのデータフローを文書化することで、デバッグやコンプライアンスをサポートする監査証跡も作成され、トレーニングデータから推論結果まであらゆるものを追跡できるようになります。

運用上の可視性とアカウンタビリティ: Amazon QuickSight で、ガバナンスメトリクスを表示するロール固有のダッシュボードを作成します。製品チームはパフォーマンス目標を所有し、エンジニアリングチームは信頼性を所有し、コンプライアンスチームは安全性を所有し、ガバナンスチームはチーム間で調整することで、チーム全体で明確なオーナーシップを確立します。

役立つリソース:

まとめ

優れた本番稼働の達成は 1 回限りの取り組みではなく、すべてのデプロイ、失敗、およびユーザーとのやり取りから学習するパイプラインを構築する継続的なプロセスです。これらの体系的な改善は、時間が経つにつれて複雑になり、単に機能を早くリリースするだけでは実現できない競争上の優位性を生み出します。

次のステップに進むには、それが検証に時間がかかりすぎる実験、難しいデプロイ、または予測できないコストかどうか、最も困難なパイプライン段階に優先順位を付けます。その領域を自動化したら、次の領域に進み、続行します。最終的に、大手 AI スタートアップを際立たせているのは、より良いモデルにアクセスできることではなく、ユーザーエクスペリエンスを継続的に改善する堅牢な GenAIOps パイプラインです。

Nima Seifi

Nima Seifi 氏は、南カリフォルニアに拠点を置く AWS のシニアソリューションアーキテクトで、SaaS と GenAIOps を専門としています。彼は AWS を基盤とするスタートアップの技術顧問を務めています。AWS に入社する前は、モバイルインターネット技術で 10 年間研究開発に携わった後、e コマース業界で DevOps アーキテクトとして 5 年以上働いていました。Nima は著名な技術雑誌や会議で 20 件以上の論文を発表し、7 件の米国特許を保有しています。仕事以外では、読書、ドキュメンタリー鑑賞、ビーチウォークなどを楽しんでいます。

Pat Santora

Pat Santora 氏は、GenAI Labs のクラウドアーキテクト兼テクノロジストであり、企業とスタートアップの両方のクラウド全体でソリューションを実装してきた 25 年以上の経験があります。彼は、透明性と信頼を中心とした理念のもと、創業当初から数多くの製品の上市を成功させ、分析的再構築プロジェクトを主導し、リモートチームを管理してきました。彼の技術的専門知識は、戦略的計画、システム管理、アーキテクチャの再設計に及んでおり、GenAI、分析、ビッグデータへの関心によって補完されています。

Clement Perrot

Clement Perrot 氏は、モデルの選択、責任ある AI の実装、および最適化された機械学習運用に関する戦略的ガイダンスを提供することで、一流スタートアップが AI イニシアチブを加速できるよう支援しています。シリアルアントレプレナーであり、Inc 30 Under 30 の受賞者でもある彼は、コンシューマーテクノロジーとエンタープライズ AI の分野で複数のベンチャーを設立したり、成功裏に撤退したりした実績があり、AI 企業の構築と拡大に関する深い専門知識を持っています。

このコンテンツはいかがでしたか?