- AWS ソリューションライブラリ›
- AWS でのマルチオミクスおよびマルチモーダルデータの統合と分析のためのガイダンス
AWS でのマルチオミクスおよびマルチモーダルデータの統合と分析のためのガイダンス
概要
仕組み
Well-Architected の柱
上記のアーキテクチャ図は、Well-Architected のベストプラクティスを念頭に置いて作成されたソリューションの例です。完全に Well-Architected であるためには、可能な限り多くの Well-Architected ベストプラクティスに従う必要があります。
このガイダンスでは、 CodeBuildとCodePipelineを使用して、バリアントコールファイル(VCF)を取り込んで保存し、がんゲノムアトラス(TCGA)とがん画像アトラス(TCIA)のデータセットからのマルチモーダルおよびマルチオミックデータを処理するために、ソリューションに必要なすべてのものを構築、パッケージ化、および展開します。サーバーレスゲノミクスデータの取り込みと分析は、完全マネージド型サービスである Amazon Omics を使用して実証されています。ソリューションの CodeCommit リポジトリで行われたコード変更は、提供されている CodePipeline デプロイパイプラインを通じてデプロイされます。
このガイダンスは IAM によるロールベースのアクセスを使用しており、すべてのバケットは暗号化が有効で、プライベートで、パブリックアクセスをブロックしています。AWS Glue のデータカタログは暗号化が有効になっており、 AWS Glue によって Amazon S3 に書き込まれたすべてのメタデータは暗号化されています。すべてのロールは最小特権で定義され、サービス間の通信はすべてお客様のアカウント内にとどまります。管理者は Jupyter ノートブック、 Amazon Omics Variant Stores のデータを制御できます。 AWS Glue Catalog のデータアクセスは Lake Formation を使用して完全に管理され、 Athena 、 SageMaker ノートブック、 QuickSight のデータアクセスは提供された IAM ロールを通じて管理されます。
AWS Glue 、 Amazon S3 、 Amazon Omics 、 Athena はすべてサーバーレスであり、データ量の増加に応じてデータアクセスのパフォーマンスをスケーリングします。AWS Glue は、データ統合ジョブの実行に必要なリソースをプロビジョニング、設定、およびスケーリングします。Athena はサーバーレスなので、サーバーやデータウェアハウスを設定して管理しなくても、データをすばやくクエリできます。QuickSight SPICE インメモリストレージを使用すると、データ探索を数千人のユーザーにまで拡張できます。
サーバーレステクノロジーを使用することで、使用するリソースのみをプロビジョニングします。各 AWS Glue ジョブはオンデマンドで Spark クラスターをプロビジョニングしてデータを変換し、完了したらリソースのプロビジョニングを解除します。新しい TCGA データセットを追加することを選択した場合は、新しい AWS Glue ジョブと AWS Glue クローラーを追加して、リソースをオンデマンドでプレビューすることもできます。Athena はクエリを自動的に並行して実行するため、ほとんどの結果は数秒以内に返されます。 Amazon Omics は、ファイルを Apache Parquet に変換することで、バリアントクエリのパフォーマンスを大規模に最適化します。
オンデマンドでスケールするサーバーレステクノロジーを利用することで、お支払いいただくのは、利用したリソースについての料金のみとなります。さらにコストを最適化するには、使用していないノートブック環境を SageMaker で停止できます。QuickSight ダッシュボードも別の CloudFormation テンプレートを使用してデプロイされるため、ビジュアライゼーションダッシュボードを使用する予定がない場合は、コストを節約するためにデプロイしないことを選択できます。 Amazon Omics はバリアントデータのストレージコストを大規模に最適化します。クエリのコストは Athena がスキャンするデータの量によって決まり、それに応じてクエリを作成することで最適化できます。
マネージドサービスとダイナミックスケールを多用することで、バックエンドサービスの環境への影響を最小限に抑えることができます。持続可能性の重要な要素は、ノートブックサーバーインスタンスの使用を最大化することです。使用していないときは、ノートブック環境を停止する必要があります。
その他の考慮事項
データ変換
このアーキテクチャでは、クエリとパフォーマンスのためにソリューション内のデータセットの取り込み、準備、カタログ化に必要な抽出、変換、読み込み (ETL) に AWS Glue を選択しました。必要に応じて、新しい AWS Glue ジョブと AWS Glue Crawler を追加して、新しい「がんゲノムアトラス (TCGA)」および「がん画像アトラス (TCIA)」データセットを取り込むことができます。また、新しいジョブやクローラーを追加して、独自のデータセットを取り込み、準備し、カタログ化することも可能です。
データ分析
このアーキテクチャでは、分析用に Jupyter ノートブック環境を提供するために SageMaker ノートブックを選択しました。既存の環境に新しいノートブックを追加することも、新しい環境を作成することも可能です。Jupter ノートブックよりも RStudio の方がお好きな場合は、Amazon SageMaker の RStudio を使用できます。
データの可視化
このアーキテクチャでは、データの視覚化と探索のためのインタラクティブなダッシュボードを提供するために QuickSight を選択しました。QuickSight ダッシュボードの設定は別の CloudFormation テンプレートを使用して行われるため、ダッシュボードを使用する予定がない場合はプロビジョニングする必要はありません。QuickSight では、独自の分析を作成したり、追加のフィルターや視覚化を調べたり、データセットや分析を同僚と共有したりできます。
自信をもってデプロイ
このリポジトリは、大規模な分析のためにゲノム、臨床、変異、発現、および画像データを準備し、データレイクに対してインタラクティブなクエリを実行するためのスケーラブルな環境を AWS に構築します。このソリューションでは、1) Healthomics Variant Store & Annotation Store を使用してゲノムバリアントデータとアノテーションデータを保存する方法、2) マルチモーダルデータの準備とカタログ化のためのサーバーレスデータ取り込みパイプラインをプロビジョニングする方法、3) インタラクティブなインターフェイスを介して臨床データを視覚化および探索する方法、4) Amazon Athena と Amazon SageMaker を使用してマルチモーダルデータレイクに対してインタラクティブな分析クエリを実行する方法を示しています。
AWS アカウント内で実験および使用するための詳細なガイドが提供されています。ガイダンス構築の各段階 (デプロイ、使用、およびクリーンアップを含む) は、デプロイに向けて準備するために詳細に検討されています。
サンプルコードは出発点です。これは業界で検証済みであり、規範的ではありますが決定的なものではなく、内部を知ることができ、開始に役立ちます。
関連コンテンツ
ガイダンス
AWS での健康 AI と ML サービスによるマルチモーダルデータ分析のガイダンス
このガイダンスは、マルチモーダルヘルスケアおよびライフサイエンス (HCLS) データを分析するためのエンドツーエンドのフレームワークを設定する方法を示しています。
貢献者
免責事項
今日お探しの情報は見つかりましたか?
ぜひご意見をお寄せください。ページのコンテンツ品質の向上のために役立てさせていただきます