Passer au contenu principal

Bibliothèque de solutions AWS

Guide de l'intégration et de l'analyse des données multiomiques et multimodales sur AWS

Présentation

Ce guide permet aux utilisateurs de préparer des données génomiques, cliniques, de mutation, d'expression et d'imagerie pour réaliser des analyses à grande échelle et exécuter des requêtes interactives sur un lac de données. Il comprend l'automatisation de l'infrastructure en tant que code (IaC), l'intégration et la livraison continues (CI/CD) pour une itération rapide, un pipeline d'ingestion pour stocker et transformer les données, ainsi que des blocs-notes et des tableaux de bord pour une analyse interactive. Nous démontrons également comment les données de variants et d'annotations génomiques sont stockées et interrogées à l'aide des blocs-notes AWS HealthOmics, Amazon Athena et Amazon SageMaker. Ce guide a été élaboré en collaboration avec Bioteam.

Fonctionnement

Architecture

Préparez des données génomiques, cliniques, de mutation, d'expression et d'imagerie pour des analyses à grande échelle et des requêtes dans un lac de données.

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

CI/CD

Préparez des données génomiques, cliniques, de mutation, d'expression et d'imagerie pour des analyses à grande échelle et des requêtes dans un lac de données.

Architecture diagram illustrating a CI/CD pipeline for AWS multi-omics and multi-modal data integration. The diagram showcases AWS services such as Amazon Omics, AWS Lake Formation, AWS Glue, Amazon Athena, AWS CodeCommit, AWS CodePipeline, Amazon QuickSight, AWS KMS, Amazon SageMaker, AWS IAM, and Amazon S3. It depicts the setup and workflow for integrating omics, imaging, and genomics data stacks, using AWS CloudFormation, CodeBuild, and various data processing and visualization services in a stepwise process from developer setup to data visualization.

Piliers Well-Architected

Le diagramme d'architecture ci-dessus est un exemple de solution créée en tenant compte des bonnes pratiques Well-Architected. Pour être totalement conforme à Well-Architected, vous devez suivre autant de bonnes pratiques Well-Architected que possible.

Ce guide utilise CodeBuild et CodePipeline pour créer, empaqueter et déployer tout ce qui est nécessaire dans la solution pour ingérer et stocker des fichiers d'appels de variantes (VCF) et travailler avec des données multimodales et multiomiques provenant des ensembles de données de The Cancer Genome Atlas (TCGA) et The Cancer Imaging Atlas (TCIA). L'ingestion et l'analyse de données génomiques sans serveur sont démontrées à l'aide d'un service entièrement géré, Amazon Omics. Les modifications de code apportées au référentiel CodeCommit de la solution seront déployées via le pipeline de déploiement CodePipeline fourni.

Lire le livre blanc sur l'excellence opérationnelle

Ce guide utilise un accès basé sur les rôles avec IAM et tous les compartiments sont dotés d'un chiffrement activé, sont privés et bloquent l'accès public. Le cryptage du catalogue de données d'AWS Glue est activé et toutes les métadonnées écrites par AWS Glue sur Amazon S3 sont chiffrées. Tous les rôles sont définis selon le principe du moindre privilège, et toutes les communications entre les services restent dans le compte du client. Les administrateurs peuvent contrôler les données de Jupyter Notebook, d'Amazon Omics Variant Stores et l'accès aux données d'AWS Glue Catalog est entièrement géré à l'aide de Lake Formation, et l'accès aux données d'Athena, de SageMaker Notebook et de QuickSight est géré via les rôles IAM fournis.

Lire le livre blanc sur la sécurité

AWS Glue, Amazon S3, Amazon Omics et Athena sont tous sans serveur et adapteront les performances d'accès aux données à mesure que votre volume de données augmente. AWS Glue fournit, configure et adapte les ressources nécessaires à l'exécution de vos tâches d'intégration de données. Athena est sans serveur, ce qui vous permet d'interroger rapidement vos données sans avoir à configurer et à gérer des serveurs ou des entrepôts de données. Le stockage en mémoire QuickSight SPICE permettra d'étendre votre exploration des données à des milliers d'utilisateurs. 

Lire le livre blanc sur la fiabilité

En utilisant les technologies sans serveur, vous n'allouez exactement que les ressources que vous utilisez. Chaque tâche AWS Glue fournira un cluster Spark à la demande pour transformer les données et déprovisionner les ressources une fois terminé. Si vous choisissez d'ajouter de nouveaux ensembles de données TCGA, vous pouvez ajouter de nouvelles tâches AWS Glue et des robots d'exploration AWS Glue qui prévisualiseront également les ressources à la demande. Athena exécute automatiquement les requêtes en parallèle, de sorte que la plupart des résultats sont renvoyés en quelques secondes. Amazon Omics optimise les performances des requêtes de variantes à grande échelle en transformant les fichiers en Apache Parquet.

Lire le livre blanc sur l'efficacité des performances

En utilisant des technologies sans serveur qui sont mises à l'échelle à la demande, vous ne payez que les ressources que vous utilisez. Pour optimiser davantage les coûts, vous pouvez arrêter les environnements d'ordinateurs portables dans SageMaker lorsqu'ils ne sont pas utilisés. Le tableau de bord QuickSight est également déployé via un modèle CloudFormation distinct. Par conséquent, si vous n'avez pas l'intention d'utiliser le tableau de bord de visualisation, vous pouvez choisir de ne pas le déployer pour réduire les coûts. Amazon Omics optimise les coûts de stockage des données des variantes à grande échelle. Les coûts des requêtes sont déterminés par la quantité de données scannées par Athena et peuvent être optimisés en écrivant les requêtes en conséquence.

Lire le livre blanc sur l'optimisation des coûts

En utilisant largement les services gérés et la mise à l’échelle dynamique, vous réduisez l’impact environnemental des services de backend. Un élément essentiel de la durabilité consiste à maximiser l'utilisation des instances de serveur de blocs-notes. Vous devez arrêter les environnements des ordinateurs portables lorsqu'ils ne sont pas utilisés. 

Lire le livre blanc sur le développement durable

Autres considérations

Transformation des données

Cette architecture a choisi AWS Glue pour l'extraction, la transformation et le chargement (ETL) nécessaires pour ingérer, préparer et cataloguer les ensembles de données de la solution à des fins de requêtes et de performances. Vous pouvez ajouter de nouveaux AWS Glue Jobs et AWS Glue Crawlers pour ingérer les nouveaux ensembles de données The Cancer Genome Atlas (TCGA) et The Cancer Image Atlas (TCIA), selon vos besoins. Vous pouvez également ajouter de nouvelles tâches et de nouveaux crawlers pour ingérer, préparer et cataloguer vos propres jeux de données propriétaires.

Analyse des données

Cette architecture a choisi SageMaker Notebooks pour fournir un environnement de bloc-notes Jupyter à des fins d'analyse. Vous pouvez ajouter de nouveaux blocs-notes à l'environnement existant ou créer de nouveaux environnements. Si vous préférez les blocs-notes RStudio aux blocs-notes Jupyter, vous pouvez utiliser RStudio sur Amazon SageMaker.

Visualisation de données

Cette architecture a choisi QuickSight pour fournir des tableaux de bord interactifs pour la visualisation et l'exploration des données. La configuration du tableau de bord QuickSight s'effectue via un modèle CloudFormation distinct. Ainsi, si vous n'avez pas l'intention d'utiliser le tableau de bord, vous n'avez pas à le configurer. Dans QuickSight, vous pouvez créer votre propre analyse, explorer des filtres ou des visualisations supplémentaires et partager des ensembles de données et des analyses avec des collègues.

Déployer en toute confiance

Ce référentiel crée un environnement évolutif dans AWS pour préparer les données génomiques, cliniques, de mutation, d'expression et d'imagerie pour exécuter des analyses à grande échelle et effectuer des requêtes interactives sur un lac de données. La solution montre comment 1) utiliser HealthOmics Variant Store & Annotation Store pour stocker des données de variants génomiques et des données d'annotation, 2) fournir des pipelines d'ingestion de données sans serveur pour la préparation et le catalogage de données multimodales, 3) visualiser et explorer les données cliniques via une interface interactive, et 4) exécuter des requêtes analytiques interactives sur un lac de données multimodal à l'aide d'Amazon Athena et Amazon SageMaker.

Un guide détaillé d'expérimentation et d'utilisation est fourni dans votre compte AWS. Chaque étape de la construction du guide, y compris le déploiement, l'utilisation et le nettoyage, est examinée pour le préparer au déploiement.

Ouvrez le guide de mise en œuvre

L'exemple de code est un point de départ. Il s'agit d'un document validé par l'industrie, prescriptif mais non définitif, et d'un aperçu pour vous aider à commencer.

Déployez un exemple de code dans la console AWS

Ouvrir un exemple de code sur GitHub

Contenu connexe

Guide

Guide pour l'analyse de données multimodales à l'aide des services d'IA et de ML pour la santé sur AWS

Ce guide explique la mise en place d’un cadre de bout en bout pour analyser les données multimodales relatives aux soins de santé et aux sciences de la vie (HCLS).

En savoir plus

Contributeurs

BioTeam est une société de conseil en informatique spécialisée dans les sciences de la vie, qui s'engage dans l'accélération des découvertes scientifiques en comblant le fossé entre ce que les scientifiques veulent faire avec les données et ce qu'ils peuvent faire. Intervenant à l'intersection de la science, des données et de la technologie depuis 2002, BioTeam dispose des fonctionnalités interdisciplinaires pour appliquer des stratégies, des technologies avancées et des services IT qui résolvent les problèmes de recherche, techniques et opérationnels les plus complexes. À même de traduire les besoins scientifiques en puissants écosystèmes de données scientifiques, nous sommes fiers de notre capacité à nous associer à un large éventail de leaders de la recherche dans le domaine des sciences de la vie, des start-ups de biotechnologie aux plus grandes entreprises pharmaceutiques mondiales, des agences gouvernementales fédérales aux institutions de recherche universitaires.
Logo for BioTeam featuring the tagline 'Accelerate Science' with stylized horizontal bars in blue and teal tones.

Avis de non-responsabilité

Les exemples de code, les bibliothèques de logiciels, les outils de ligne de commande, les preuves de concept, les modèles ou toute autre technologie connexe (y compris tout ce qui précède qui est fourni par notre personnel) vous sont fournis en tant que contenu AWS en vertu du contrat client AWS ou de l'accord écrit pertinent entre vous et AWS (selon le cas). Vous ne devez pas utiliser ce contenu AWS dans vos comptes de production, ni sur des données de production ou autres données critiques. Vous êtes responsable des tests, de la sécurisation et de l'optimisation du contenu AWS, tel que les exemples de code, comme il convient pour une utilisation en production, en fonction de vos pratiques et normes de contrôle de qualité spécifiques. Le déploiement de contenu AWS peut entraîner des frais AWS pour la création ou l'utilisation de ressources payantes AWS, telles que l'exécution d'instances Amazon EC2 ou l'utilisation du stockage Amazon S3.

Avez-vous trouvé les informations que vous recherchiez ?

Faites-nous part de vos commentaires afin que nous puissions améliorer le contenu de nos pages