AWS ソリューションライブラリ

AWS でのマルチオミクスおよびマルチモーダルデータの統合と分析のためのガイダンス

Q: 運用上の優秀性

このガイダンスでは、 CodeBuild と CodePipeline を使用して、Variant Call Files (VCF) を取り込んで保存し、The Cancer Genome Atlas (TCGA) と The Cancer Imaging Atlas (TCIA) のデータセットからマルチモーダルデータとマルチオミクスデータを扱うソリューションに必要なすべてを構築、パッケージ化、デプロイしています。サーバーレスのゲノミクスデータの取り込みと分析は、フルマネージド サービスである Amazon Omics を使用して実証されています。ソリューションの CodeCommit リポジトリで行われたコードの変更は、提供される CodePipeline のデプロイパイプラインを通じてデプロイされます。 オペレーショナルエクセレンスに関するホワイトペーパーを読む

Q: セキュリティ

このガイダンスでは、 IAM によるロールベースアクセスを使用し、すべてのバケットで暗号化を有効にし、プライベートとし、パブリックアクセスをブロックしています。 AWS Glue のデータカタログでは暗号化が有効になっており、 AWS Glue によって Amazon S3 に書き込まれるメタデータはすべて暗号化されています。すべてのロールは最小特権で定義され、サービス間の通信はすべてお客様のアカウント内にとどまります。管理者は Jupyter notebook、 Amazon Omics Variant Storesのデータ、 AWS Glue Catalogのデータアクセスを Lake Formation を使って完全に管理し、 Athena 、 SageMaker Notebook 、 QuickSight のデータアクセスを提供された IAM ロールを通して管理することができます。 セキュリティに関するホワイトペーパーを読む

Q: 信頼性

AWS Glue 、 Amazon S3 、 Amazon Omics と Athena はすべてサーバーレスであり、データ量の増加に応じてデータアクセスのパフォーマンスをスケールします。 AWS Glue は、データ統合ジョブの実行に必要なリソースをプロビジョニング、設定、スケーリングします。 Athena はサーバーレスであるため、迅速にデータのクエリを実行できます。サーバーやデータウェアハウスの設定や管理は不要です。 QuickSight SPICE インメモリストレージは、データ調査を数千人のユーザーまでスケールします。 信頼性に関するホワイトペーパーを読む

Q: パフォーマンス効率

サーバーレステクノロジーを使用することで、使用するリソースのみをプロビジョニングします。各 AWS Glue ジョブは、データ変換のためにオンデマンドで Spark クラスターをプロビジョニングし、終了したらリソースをデプロビジョニングします。新しい TCGA データセットを追加する場合は、新しい AWS Glue ジョブや AWS Glue クローラーを追加して、オンデマンドでリソースをプロビジョニングできます。 Athena では、クエリが自動的に並列で実行されます。そのため、ほとんどの結果を数秒で得ることができます。 Amazon Omics は、ファイルを Apache Parquet に変換することで、バリアントクエリのパフォーマンスを大規模に最適化します。 パフォーマンス効率に関するホワイトペーパーを読む

ガイドを開く

サンプルコードに移動

概要

このガイダンスは、ユーザーが大規模な分析のためにゲノム、臨床、変異、発現、および画像データを準備し、データレイクに対してインタラクティブなクエリを実行するために役立ちます。Infrastructure as Code (IaC) のオートメーション、迅速なイテレーションのための継続的インテグレーションと継続的デリバリー (CI/CD)、データを保存および変換するための取り込みパイプライン、インタラクティブな分析のためのノートブックとダッシュボードが含まれています。また、AWS HealthOmics、Amazon Athena、および Amazon SageMaker ノートブックを使用して、ゲノミクスバリアントと注釈データを保存およびクエリする方法も示します。このガイダンスは Bioteam と共同して構築されました。

仕組み

アーキテクチャ

このガイダンスは、ユーザーが大規模な分析のためにゲノム、臨床、変異、発現、および画像データを準備し、データレイクに対してクエリを実行するために役立ちます。

アーキテクチャダイアグラムをダウンロード

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

CI/CD

アーキテクチャダイアグラムをダウンロード

Well-Architected の柱

上記のアーキテクチャ図は、Well-Architected のベストプラクティスを念頭に置いて作成されたソリューションの例です。完全に Well-Architected であるためには、可能な限り多くの Well-Architected ベストプラクティスに従う必要があります。

このガイダンスでは、CodeBuild と CodePipeline を使用して、Variant Call Files (VCF) を取り込んで保存し、The Cancer Genome Atlas (TCGA) と The Cancer Imaging Atlas (TCIA) のデータセットからマルチモーダルデータとマルチオミクスデータを扱うソリューションに必要なすべてを構築、パッケージ化、デプロイしています。サーバーレスのゲノミクスデータの取り込みと分析は、フルマネージドサービスである Amazon Omics を使用して実証されています。ソリューションの CodeCommit リポジトリで行われたコードの変更は、提供される CodePipeline のデプロイパイプラインを通じてデプロイされます。

オペレーショナルエクセレンスに関するホワイトペーパーを読む

このガイダンスでは、IAM によるロールベースアクセスを使用し、すべてのバケットで暗号化を有効にし、プライベートとし、パブリックアクセスをブロックしています。AWS Glue のデータカタログでは暗号化が有効になっており、AWS Glue によって Amazon S3 に書き込まれるメタデータはすべて暗号化されています。すべてのロールは最小特権で定義され、サービス間の通信はすべてお客様のアカウント内にとどまります。管理者は Jupyter notebook、Amazon Omics Variant Storesのデータ、AWS Glue Catalogのデータアクセスを Lake Formation を使って完全に管理し、Athena、SageMaker Notebook、QuickSight のデータアクセスを提供された IAM ロールを通して管理することができます。

セキュリティに関するホワイトペーパーを読む

AWS Glue、Amazon S3、Amazon Omics と Athena はすべてサーバーレスであり、データ量の増加に応じてデータアクセスのパフォーマンスをスケールします。AWS Glue は、データ統合ジョブの実行に必要なリソースをプロビジョニング、設定、スケーリングします。Athena はサーバーレスであるため、迅速にデータのクエリを実行できます。サーバーやデータウェアハウスの設定や管理は不要です。QuickSight SPICE インメモリストレージは、データ調査を数千人のユーザーまでスケールします。

信頼性に関するホワイトペーパーを読む

サーバーレステクノロジーを使用することで、使用するリソースのみをプロビジョニングします。各 AWS Glue ジョブは、データ変換のためにオンデマンドで Spark クラスターをプロビジョニングし、終了したらリソースをデプロビジョニングします。新しい TCGA データセットを追加する場合は、新しい AWS Glue ジョブや AWS Glue クローラーを追加して、オンデマンドでリソースをプロビジョニングできます。Athena では、クエリが自動的に並列で実行されます。そのため、ほとんどの結果を数秒で得ることができます。 Amazon Omics は、ファイルを Apache Parquet に変換することで、バリアントクエリのパフォーマンスを大規模に最適化します。

パフォーマンス効率に関するホワイトペーパーを読む

オンデマンドでスケールするサーバーレステクノロジーを利用することで、お支払いいただくのは、利用したリソースについての料金のみとなります。さらにコストを最適化するために、SageMaker のノートブック環境を使用していないときに停止することができます。また、QuickSight のダッシュボードは、別の CloudFormation テンプレートでデプロイされるため、可視化ダッシュボードを使用する予定がない場合は、デプロイしないことでコストを削減することも可能です。 Amazon Omics は、バリアントデータのストレージコストを大規模に最適化します。クエリのコストは、Athena がスキャンするデータ量によって決まり、それに応じてクエリを記述することで最適化できます。

コスト最適化に関するホワイトペーパーを読む

マネージドサービスとダイナミックスケールを多用することで、バックエンドサービスの環境への影響を最小限に抑えることができます。持続可能性の重要な要素は、ノートブックサーバーインスタンスの使用を最大化することです。使用していないときは、ノートブック環境を停止することをお勧めします。

持続可能性に関するホワイトペーパーを読む

その他の考慮事項

データ変換

このアーキテクチャでは、クエリとパフォーマンスのためにソリューション内のデータセットを取り込み、準備し、カタログ化するために必要な抽出、変換、ロード (ETL) のために AWS Glue を選択しました。必要に応じて、新しい The Cancer Genome Atlas (TCGA) と The Cancer Image Atlas (TCIA) のデータセットを取り込むために、新しい AWS Glue ジョブや AWS Glue Crawler を追加できます。また、新しいジョブやクローラーを追加して、独自のデータセットを取り込み、準備し、カタログ化することも可能です。

データ分析

このアーキテクチャでは、分析のための Jupyter Notebook 環境を提供するために、SageMaker Notebooks を選択しました。既存の環境に新しいノートブックを追加することも、新しい環境を作成することも可能です。Jupyter Notebook よりも RStudio の方が好きな方は、RStudio on Amazon SageMaker を使うことができます。

データの可視化

このアーキテクチャでは、データの可視化と調査のためのインタラクティブなダッシュボードを提供するために、QuickSight を選択しました。QuickSight ダッシュボードのセットアップは、別の CloudFormation テンプレートを介して行われるため、ダッシュボードを使用する予定がない場合は、プロビジョニングを行う必要はありません。QuickSight では、独自の分析を作成したり、追加のフィルターや可視化を調査したり、データセットや分析を同僚と共有したりすることができます。

自信をもってデプロイ

このリポジトリは、大規模な分析のためにゲノム、臨床、変異、発現、および画像データを準備し、データレイクに対してインタラクティブなクエリを実行するためのスケーラブルな環境を AWS に構築します。このソリューションでは、1) HealthOmics Variant Store と Annotation Store を使用してゲノムバリアントデータと注釈データを保存する方法、2) マルチモーダルデータの準備とカタログ化のためにサーバーレスのデータインジェストパイプラインをプロビジョニングする方法、3) インタラクティブなインターフェイスを通じて臨床データを視覚化して詳しく確認する方法、および 4) Amazon Athena と Amazon SageMaker を使用して、マルチモーダルデータレイクに対してインタラクティブな分析クエリを実行する方法を示します。

AWS アカウント内で実験および使用するための詳細なガイドが提供されています。ガイダンス構築の各段階 (デプロイ、使用、およびクリーンアップを含む) は、デプロイに向けて準備するために詳細に検討されています。

実装ガイドを開く

サンプルコードは出発点です。これは業界で検証済みであり、規範的ではありますが決定的なものではなく、内部を知ることができ、開始に役立ちます。

AWS コンソールにサンプルコードをデプロイ

GitHub でサンプルコードを開く

貢献者

BioTeam はライフサイエンス IT コンサルティング会社で、科学者がデータを使って何をしたいかということと、何ができるのかということの間のギャップを埋めることによって、科学的発見を加速させることに情熱を注いでいます。2002 年以来、科学、データ、テクノロジーの交差点で活動してきた BioTeam は、最も困難な研究、技術、運用の問題を解決する戦略、先端技術、IT サービスを適用するための学際的能力を備えています。科学的ニーズを強力な科学的データエコシステムに変換することに長けている私たちは、バイオテクノロジーのスタートアップから世界最大の製薬会社、連邦政府機関から学術研究機関に至るまで、ライフサイエンス研究のリーダーたちと幅広く提携する能力を誇りとしています。

詳細

免責事項

サンプルコード、ソフトウェアライブラリ、コマンドラインツール、概念の実証、テンプレート、またはその他の関連技術 (私たちの担当者から提供される前述のものを含む) は、AWS カスタマーアグリーメント、またはお客様と AWS との間の関連文書契約 (いずれか該当する方) に基づき、AWS コンテンツとしてお客様に提供されるものです。お客様は、この AWS コンテンツを、お客様の本番アカウント、または本番データもしくはその他の重要なデータで使用すべきではありません。お客様は、サンプルコードなどの AWS コンテンツを、お客様固有の品質管理手法および基準に基づいて、本番グレードでの使用に適したテスト、セキュリティ確保、および最適化を行う責任を負います。AWS コンテンツのデプロイには、Amazon EC2 インスタンスの実行や Amazon S3 ストレージの使用など、AWS の課金対象リソースを作成または使用するための AWS 料金が発生する場合があります。

今日お探しの情報は見つかりましたか?

ぜひご意見をお寄せください。ページのコンテンツ品質の向上のために役立てさせていただきます

AWS でのマルチオミクスおよびマルチモーダルデータの統合と分析のためのガイダンス

概要