AWS でのマルチオミクスおよびマルチモーダルデータの統合と分析のためのガイダンス
概要
仕組み
アーキテクチャ
このガイダンスは、ユーザーが大規模な分析のためにゲノム、臨床、変異、発現、および画像データを準備し、データレイクに対してクエリを実行するために役立ちます。
CI/CD
このガイダンスは、ユーザーが大規模な分析のためにゲノム、臨床、変異、発現、および画像データを準備し、データレイクに対してクエリを実行するために役立ちます。
Well-Architected の柱
上記のアーキテクチャ図は、Well-Architected のベストプラクティスを念頭に置いて作成されたソリューションの例です。完全に Well-Architected であるためには、可能な限り多くの Well-Architected ベストプラクティスに従う必要があります。
このガイダンスでは、CodeBuild と CodePipeline を使用して、Variant Call Files (VCF) を取り込んで保存し、The Cancer Genome Atlas (TCGA) と The Cancer Imaging Atlas (TCIA) のデータセットからマルチモーダルデータとマルチオミクスデータを扱うソリューションに必要なすべてを構築、パッケージ化、デプロイしています。サーバーレスのゲノミクスデータの取り込みと分析は、フルマネージド サービスである Amazon Omics を使用して実証されています。ソリューションの CodeCommit リポジトリで行われたコードの変更は、提供される CodePipeline のデプロイパイプラインを通じてデプロイされます。
このガイダンスでは、IAM によるロールベースアクセスを使用し、すべてのバケットで暗号化を有効にし、プライベートとし、パブリックアクセスをブロックしています。AWS Glue のデータカタログでは暗号化が有効になっており、AWS Glue によって Amazon S3 に書き込まれるメタデータはすべて暗号化されています。すべてのロールは最小特権で定義され、サービス間の通信はすべてお客様のアカウント内にとどまります。管理者は Jupyter notebook、Amazon Omics Variant Storesのデータ、AWS Glue Catalogのデータアクセスを Lake Formation を使って完全に管理し、Athena、SageMaker Notebook、QuickSight のデータアクセスを提供された IAM ロールを通して管理することができます。
AWS Glue、Amazon S3、Amazon Omics と Athena はすべてサーバーレスであり、データ量の増加に応じてデータアクセスのパフォーマンスをスケールします。AWS Glue は、データ統合ジョブの実行に必要なリソースをプロビジョニング、設定、スケーリングします。Athena はサーバーレスであるため、迅速にデータのクエリを実行できます。サーバーやデータウェアハウスの設定や管理は不要です。QuickSight SPICE インメモリストレージは、データ調査を数千人のユーザーまでスケールします。
サーバーレステクノロジーを使用することで、使用するリソースのみをプロビジョニングします。各 AWS Glue ジョブは、データ変換のためにオンデマンドで Spark クラスターをプロビジョニングし、終了したらリソースをデプロビジョニングします。新しい TCGA データセットを追加する場合は、新しい AWS Glue ジョブや AWS Glue クローラーを追加して、オンデマンドでリソースをプロビジョニングできます。Athena では、クエリが自動的に並列で実行されます。そのため、ほとんどの結果を数秒で得ることができます。 Amazon Omics は、ファイルを Apache Parquet に変換することで、バリアントクエリのパフォーマンスを大規模に最適化します。
オンデマンドでスケールするサーバーレステクノロジーを利用することで、お支払いいただくのは、利用したリソースについての料金のみとなります。さらにコストを最適化するために、SageMaker のノートブック環境を使用していないときに停止することができます。また、QuickSight のダッシュボードは、別の CloudFormation テンプレートでデプロイされるため、可視化ダッシュボードを使用する予定がない場合は、デプロイしないことでコストを削減することも可能です。 Amazon Omics は、バリアントデータのストレージコストを大規模に最適化します。クエリのコストは、Athena がスキャンするデータ量によって決まり、それに応じてクエリを記述することで最適化できます。
マネージドサービスとダイナミックスケールを多用することで、バックエンドサービスの環境への影響を最小限に抑えることができます。持続可能性の重要な要素は、ノートブックサーバーインスタンスの使用を最大化することです。使用していないときは、ノートブック環境を停止することをお勧めします。
その他の考慮事項
データ変換
このアーキテクチャでは、クエリとパフォーマンスのためにソリューション内のデータセットを取り込み、準備し、カタログ化するために必要な抽出、変換、ロード (ETL) のために AWS Glue を選択しました。必要に応じて、新しい The Cancer Genome Atlas (TCGA) と The Cancer Image Atlas (TCIA) のデータセットを取り込むために、新しい AWS Glue ジョブや AWS Glue Crawler を追加できます。また、新しいジョブやクローラーを追加して、独自のデータセットを取り込み、準備し、カタログ化することも可能です。
データ分析
このアーキテクチャでは、分析のための Jupyter Notebook 環境を提供するために、SageMaker Notebooks を選択しました。既存の環境に新しいノートブックを追加することも、新しい環境を作成することも可能です。Jupyter Notebook よりも RStudio の方が好きな方は、RStudio on Amazon SageMaker を使うことができます。
データの可視化
このアーキテクチャでは、データの可視化と調査のためのインタラクティブなダッシュボードを提供するために、QuickSight を選択しました。QuickSight ダッシュボードのセットアップは、別の CloudFormation テンプレートを介して行われるため、ダッシュボードを使用する予定がない場合は、プロビジョニングを行う必要はありません。QuickSight では、独自の分析を作成したり、追加のフィルターや可視化を調査したり、データセットや分析を同僚と共有したりすることができます。
自信をもってデプロイ
このリポジトリは、大規模な分析のためにゲノム、臨床、変異、発現、および画像データを準備し、データレイクに対してインタラクティブなクエリを実行するためのスケーラブルな環境を AWS に構築します。このソリューションでは、1) HealthOmics Variant Store と Annotation Store を使用してゲノムバリアントデータと注釈データを保存する方法、2) マルチモーダルデータの準備とカタログ化のためにサーバーレスのデータインジェストパイプラインをプロビジョニングする方法、3) インタラクティブなインターフェイスを通じて臨床データを視覚化して詳しく確認する方法、および 4) Amazon Athena と Amazon SageMaker を使用して、マルチモーダルデータレイクに対してインタラクティブな分析クエリを実行する方法を示します。
AWS アカウント内で実験および使用するための詳細なガイドが提供されています。ガイダンス構築の各段階 (デプロイ、使用、およびクリーンアップを含む) は、デプロイに向けて準備するために詳細に検討されています。
サンプルコードは出発点です。これは業界で検証済みであり、規範的ではありますが決定的なものではなく、内部を知ることができ、開始に役立ちます。
関連コンテンツ
ガイダンス
AWS での健康 AI と ML サービスによるマルチモーダルデータ分析のガイダンス
このガイダンスは、マルチモーダルヘルスケアおよびライフサイエンス (HCLS) データを分析するためのエンドツーエンドのフレームワークを設定する方法を示しています。
貢献者
免責事項
今日お探しの情報は見つかりましたか?
ぜひご意見をお寄せください。ページのコンテンツ品質の向上のために役立てさせていただきます