メインコンテンツに移動

AWS ソリューションライブラリ

AWS でのマルチオミクスおよびマルチモーダルデータの統合と分析のためのガイダンス

概要

このガイダンスは、ユーザーが大規模な分析のためにゲノム、臨床、変異、発現、および画像データを準備し、データレイクに対してインタラクティブなクエリを実行するために役立ちます。Infrastructure as Code (IaC) のオートメーション、迅速なイテレーションのための継続的インテグレーションと継続的デリバリー (CI/CD)、データを保存および変換するための取り込みパイプライン、インタラクティブな分析のためのノートブックとダッシュボードが含まれています。また、AWS HealthOmics、Amazon Athena、および Amazon SageMaker ノートブックを使用して、ゲノミクスバリアントと注釈データを保存およびクエリする方法も示します。 このガイダンスはBioteamと共同で作成されました

仕組み

アーキテクチャ

ゲノム、臨床、突然変異、発現、イメージングのデータを準備して、大規模な分析やデータレイクに対するクエリを行います。

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

CI/CD

ゲノム、臨床、突然変異、発現、イメージングのデータを準備して、大規模な分析やデータレイクに対するクエリを行います。

Architecture diagram illustrating a CI/CD pipeline for AWS multi-omics and multi-modal data integration. The diagram showcases AWS services such as Amazon Omics, AWS Lake Formation, AWS Glue, Amazon Athena, AWS CodeCommit, AWS CodePipeline, Amazon QuickSight, AWS KMS, Amazon SageMaker, AWS IAM, and Amazon S3. It depicts the setup and workflow for integrating omics, imaging, and genomics data stacks, using AWS CloudFormation, CodeBuild, and various data processing and visualization services in a stepwise process from developer setup to data visualization.

Well-Architected の柱

上記のアーキテクチャ図は、Well-Architected のベストプラクティスを念頭に置いて作成されたソリューションの例です。完全に Well-Architected であるためには、可能な限り多くの Well-Architected ベストプラクティスに従う必要があります。

このガイダンスでは、 CodeBuildとCodePipelineを使用して、バリアントコールファイル(VCF)を取り込んで保存し、がんゲノムアトラス(TCGA)とがん画像アトラス(TCIA)のデータセットからのマルチモーダルおよびマルチオミックデータを処理するために、ソリューションに必要なすべてのものを構築、パッケージ化、および展開します。サーバーレスゲノミクスデータの取り込みと分析は、完全マネージド型サービスである Amazon Omics を使用して実証されています。ソリューションの CodeCommit リポジトリで行われたコード変更は、提供されている CodePipeline デプロイパイプラインを通じてデプロイされます

オペレーショナルエクセレンスに関するホワイトペーパーを読む

このガイダンスは IAM によるロールベースのアクセスを使用しており、すべてのバケットは暗号化が有効で、プライベートで、パブリックアクセスをブロックしています。AWS Glue のデータカタログは暗号化が有効になっており、 AWS Glue によって Amazon S3 に書き込まれたすべてのメタデータは暗号化されています。すべてのロールは最小特権で定義され、サービス間の通信はすべてお客様のアカウント内にとどまります。管理者は Jupyter ノートブック、 Amazon Omics Variant Stores のデータを制御できます。 AWS Glue Catalog のデータアクセスは Lake Formation を使用して完全に管理され、 Athena SageMaker ノートブック、 QuickSight のデータアクセスは提供された IAM ロールを通じて管理されます。

セキュリティに関するホワイトペーパーを読む

AWS Glue Amazon S3 Amazon Omics Athena はすべてサーバーレスであり、データ量の増加に応じてデータアクセスのパフォーマンスをスケーリングします。AWS Glue は、データ統合ジョブの実行に必要なリソースをプロビジョニング、設定、およびスケーリングします。Athena はサーバーレスなので、サーバーやデータウェアハウスを設定して管理しなくても、データをすばやくクエリできます。QuickSight SPICE インメモリストレージを使用すると、データ探索を数千人のユーザーにまで拡張できます。 

信頼性に関するホワイトペーパーを読む

サーバーレステクノロジーを使用することで、使用するリソースのみをプロビジョニングします。各 AWS Glue ジョブはオンデマンドで Spark クラスターをプロビジョニングしてデータを変換し、完了したらリソースのプロビジョニングを解除します。新しい TCGA データセットを追加することを選択した場合は、新しい AWS Glue ジョブと AWS Glue クローラーを追加して、リソースをオンデマンドでプレビューすることもできます。Athena はクエリを自動的に並行して実行するため、ほとんどの結果は数秒以内に返されます。 Amazon Omics は、ファイルを Apache Parquet に変換することで、バリアントクエリのパフォーマンスを大規模に最適化します。

パフォーマンス効率に関するホワイトペーパーを読む

オンデマンドでスケールするサーバーレステクノロジーを利用することで、お支払いいただくのは、利用したリソースについての料金のみとなります。さらにコストを最適化するには、使用していないノートブック環境を SageMaker で停止できます。QuickSight ダッシュボードも別の CloudFormation テンプレートを使用してデプロイされるため、ビジュアライゼーションダッシュボードを使用する予定がない場合は、コストを節約するためにデプロイしないことを選択できます。 Amazon Omics はバリアントデータのストレージコストを大規模に最適化します。クエリのコストは Athena がスキャンするデータの量によって決まり、それに応じてクエリを作成することで最適化できます。

コスト最適化に関するホワイトペーパーを読む

マネージドサービスとダイナミックスケールを多用することで、バックエンドサービスの環境への影響を最小限に抑えることができます。持続可能性の重要な要素は、ノートブックサーバーインスタンスの使用を最大化することです。使用していないときは、ノートブック環境を停止する必要があります。 

持続可能性に関するホワイトペーパーを読む

その他の考慮事項

データ変換

このアーキテクチャでは、クエリとパフォーマンスのためにソリューション内のデータセットの取り込み、準備、カタログ化に必要な抽出、変換、読み込み (ETL) に AWS Glue を選択しました。必要に応じて、新しい AWS Glue ジョブと AWS Glue Crawler を追加して、新しい「がんゲノムアトラス (TCGA)」および「がん画像アトラス (TCIA)」データセットを取り込むことができます。また、新しいジョブやクローラーを追加して、独自のデータセットを取り込み、準備し、カタログ化することも可能です。

データ分析

このアーキテクチャでは、分析用に Jupyter ノートブック環境を提供するために SageMaker ノートブックを選択しました。既存の環境に新しいノートブックを追加することも、新しい環境を作成することも可能です。Jupter ノートブックよりも RStudio の方がお好きな場合は、Amazon SageMaker の RStudio を使用できます。

データの可視化

このアーキテクチャでは、データの視覚化と探索のためのインタラクティブなダッシュボードを提供するために QuickSight を選択しました。QuickSight ダッシュボードの設定は別の CloudFormation テンプレートを使用して行われるため、ダッシュボードを使用する予定がない場合はプロビジョニングする必要はありません。QuickSight では、独自の分析を作成したり、追加のフィルターや視覚化を調べたり、データセットや分析を同僚と共有したりできます。

自信をもってデプロイ

このリポジトリは、大規模な分析のためにゲノム、臨床、変異、発現、および画像データを準備し、データレイクに対してインタラクティブなクエリを実行するためのスケーラブルな環境を AWS に構築します。このソリューションでは、1) Healthomics Variant Store & Annotation Store を使用してゲノムバリアントデータとアノテーションデータを保存する方法、2) マルチモーダルデータの準備とカタログ化のためのサーバーレスデータ取り込みパイプラインをプロビジョニングする方法、3) インタラクティブなインターフェイスを介して臨床データを視覚化および探索する方法、4) Amazon Athena と Amazon SageMaker を使用してマルチモーダルデータレイクに対してインタラクティブな分析クエリを実行する方法を示しています。

AWS アカウント内で実験および使用するための詳細なガイドが提供されています。ガイダンス構築の各段階 (デプロイ、使用、およびクリーンアップを含む) は、デプロイに向けて準備するために詳細に検討されています。

実装ガイドを開く

サンプルコードは出発点です。これは業界で検証済みであり、規範的ではありますが決定的なものではなく、内部を知ることができ、開始に役立ちます。

AWS コンソールにサンプルコードをデプロイ

GitHub でサンプルコードを開く

関連コンテンツ

ガイダンス

AWS での健康 AI と ML サービスによるマルチモーダルデータ分析のガイダンス

このガイダンスは、マルチモーダルヘルスケアおよびライフサイエンス (HCLS) データを分析するためのエンドツーエンドのフレームワークを設定する方法を示しています。

詳細はこちら

貢献者

BioTeam はライフサイエンス IT コンサルティング会社で、科学者がデータを使って何をしたいかということと、何ができるのかということの間のギャップを埋めることによって、科学的発見を加速させることに情熱を注いでいます。2002 年以来、科学、データ、テクノロジーの交差点で活動してきた BioTeam は、最も困難な研究、技術、運用の問題を解決する戦略、先端技術、IT サービスを適用するための学際的能力を備えています。科学的ニーズを強力な科学的データエコシステムに変換することに長けている私たちは、バイオテクノロジーのスタートアップから世界最大の製薬会社、連邦政府機関から学術研究機関に至るまで、ライフサイエンス研究のリーダーたちと幅広く提携する能力を誇りとしています。
Logo for BioTeam featuring the tagline 'Accelerate Science' with stylized horizontal bars in blue and teal tones.

免責事項

サンプルコード、ソフトウェアライブラリ、コマンドラインツール、概念の実証、テンプレート、またはその他の関連技術 (私たちの担当者から提供される前述のものを含む) は、AWS カスタマーアグリーメント、またはお客様と AWS との間の関連文書契約 (いずれか該当する方) に基づき、AWS コンテンツとしてお客様に提供されるものです。お客様は、この AWS コンテンツを、お客様の本番アカウント、または本番データもしくはその他の重要なデータで使用すべきではありません。お客様は、サンプルコードなどの AWS コンテンツを、お客様固有の品質管理手法および基準に基づいて、本番グレードでの使用に適したテスト、セキュリティ確保、および最適化を行う責任を負います。AWS コンテンツのデプロイには、Amazon EC2 インスタンスの実行や Amazon S3 ストレージの使用など、AWS の課金対象リソースを作成または使用するための AWS 料金が発生する場合があります。

今日お探しの情報は見つかりましたか?

ぜひご意見をお寄せください。ページのコンテンツ品質の向上のために役立てさせていただきます