- Bibliothèque de solutions AWS›
- Guide de l'intégration et de l'analyse des données multiomiques et multimodales sur AWS
Guide de l'intégration et de l'analyse des données multiomiques et multimodales sur AWS
Présentation
Fonctionnement
Architecture
Préparez des données génomiques, cliniques, de mutation, d'expression et d'imagerie pour des analyses à grande échelle et des requêtes dans un lac de données.
CI/CD
Préparez des données génomiques, cliniques, de mutation, d'expression et d'imagerie pour des analyses à grande échelle et des requêtes dans un lac de données.
Piliers Well-Architected
Le diagramme d'architecture ci-dessus est un exemple de solution créée en tenant compte des bonnes pratiques Well-Architected. Pour être totalement conforme à Well-Architected, vous devez suivre autant de bonnes pratiques Well-Architected que possible.
Ce guide utilise CodeBuild et CodePipeline pour créer, empaqueter et déployer tout ce qui est nécessaire dans la solution pour ingérer et stocker des fichiers d'appels de variantes (VCF) et travailler avec des données multimodales et multiomiques provenant des ensembles de données de The Cancer Genome Atlas (TCGA) et The Cancer Imaging Atlas (TCIA). L'ingestion et l'analyse de données génomiques sans serveur sont démontrées à l'aide d'un service entièrement géré, Amazon Omics. Les modifications de code apportées au référentiel CodeCommit de la solution seront déployées via le pipeline de déploiement CodePipeline fourni.
Ce guide utilise un accès basé sur les rôles avec IAM et tous les compartiments sont dotés d'un chiffrement activé, sont privés et bloquent l'accès public. Le cryptage du catalogue de données d'AWS Glue est activé et toutes les métadonnées écrites par AWS Glue sur Amazon S3 sont chiffrées. Tous les rôles sont définis selon le principe du moindre privilège, et toutes les communications entre les services restent dans le compte du client. Les administrateurs peuvent contrôler les données de Jupyter Notebook, d'Amazon Omics Variant Stores et l'accès aux données d'AWS Glue Catalog est entièrement géré à l'aide de Lake Formation, et l'accès aux données d'Athena, de SageMaker Notebook et de QuickSight est géré via les rôles IAM fournis.
AWS Glue, Amazon S3, Amazon Omics et Athena sont tous sans serveur et adapteront les performances d'accès aux données à mesure que votre volume de données augmente. AWS Glue fournit, configure et adapte les ressources nécessaires à l'exécution de vos tâches d'intégration de données. Athena est sans serveur, ce qui vous permet d'interroger rapidement vos données sans avoir à configurer et à gérer des serveurs ou des entrepôts de données. Le stockage en mémoire QuickSight SPICE permettra d'étendre votre exploration des données à des milliers d'utilisateurs.
En utilisant les technologies sans serveur, vous n'allouez exactement que les ressources que vous utilisez. Chaque tâche AWS Glue fournira un cluster Spark à la demande pour transformer les données et déprovisionner les ressources une fois terminé. Si vous choisissez d'ajouter de nouveaux ensembles de données TCGA, vous pouvez ajouter de nouvelles tâches AWS Glue et des robots d'exploration AWS Glue qui prévisualiseront également les ressources à la demande. Athena exécute automatiquement les requêtes en parallèle, de sorte que la plupart des résultats sont renvoyés en quelques secondes. Amazon Omics optimise les performances des requêtes de variantes à grande échelle en transformant les fichiers en Apache Parquet.
En utilisant des technologies sans serveur qui sont mises à l'échelle à la demande, vous ne payez que les ressources que vous utilisez. Pour optimiser davantage les coûts, vous pouvez arrêter les environnements d'ordinateurs portables dans SageMaker lorsqu'ils ne sont pas utilisés. Le tableau de bord QuickSight est également déployé via un modèle CloudFormation distinct. Par conséquent, si vous n'avez pas l'intention d'utiliser le tableau de bord de visualisation, vous pouvez choisir de ne pas le déployer pour réduire les coûts. Amazon Omics optimise les coûts de stockage des données des variantes à grande échelle. Les coûts des requêtes sont déterminés par la quantité de données scannées par Athena et peuvent être optimisés en écrivant les requêtes en conséquence.
En utilisant largement les services gérés et la mise à l’échelle dynamique, vous réduisez l’impact environnemental des services de backend. Un élément essentiel de la durabilité consiste à maximiser l'utilisation des instances de serveur de blocs-notes. Vous devez arrêter les environnements des ordinateurs portables lorsqu'ils ne sont pas utilisés.
Autres considérations
Transformation des données
Cette architecture a choisi AWS Glue pour l'extraction, la transformation et le chargement (ETL) nécessaires pour ingérer, préparer et cataloguer les ensembles de données de la solution à des fins de requêtes et de performances. Vous pouvez ajouter de nouveaux AWS Glue Jobs et AWS Glue Crawlers pour ingérer les nouveaux ensembles de données The Cancer Genome Atlas (TCGA) et The Cancer Image Atlas (TCIA), selon vos besoins. Vous pouvez également ajouter de nouvelles tâches et de nouveaux crawlers pour ingérer, préparer et cataloguer vos propres jeux de données propriétaires.
Analyse des données
Cette architecture a choisi SageMaker Notebooks pour fournir un environnement de bloc-notes Jupyter à des fins d'analyse. Vous pouvez ajouter de nouveaux blocs-notes à l'environnement existant ou créer de nouveaux environnements. Si vous préférez les blocs-notes RStudio aux blocs-notes Jupyter, vous pouvez utiliser RStudio sur Amazon SageMaker.
Visualisation de données
Cette architecture a choisi QuickSight pour fournir des tableaux de bord interactifs pour la visualisation et l'exploration des données. La configuration du tableau de bord QuickSight s'effectue via un modèle CloudFormation distinct. Ainsi, si vous n'avez pas l'intention d'utiliser le tableau de bord, vous n'avez pas à le configurer. Dans QuickSight, vous pouvez créer votre propre analyse, explorer des filtres ou des visualisations supplémentaires et partager des ensembles de données et des analyses avec des collègues.
Déployer en toute confiance
Ce référentiel crée un environnement évolutif dans AWS pour préparer les données génomiques, cliniques, de mutation, d'expression et d'imagerie pour exécuter des analyses à grande échelle et effectuer des requêtes interactives sur un lac de données. La solution montre comment 1) utiliser HealthOmics Variant Store & Annotation Store pour stocker des données de variants génomiques et des données d'annotation, 2) fournir des pipelines d'ingestion de données sans serveur pour la préparation et le catalogage de données multimodales, 3) visualiser et explorer les données cliniques via une interface interactive, et 4) exécuter des requêtes analytiques interactives sur un lac de données multimodal à l'aide d'Amazon Athena et Amazon SageMaker.
Un guide détaillé d'expérimentation et d'utilisation est fourni dans votre compte AWS. Chaque étape de la construction du guide, y compris le déploiement, l'utilisation et le nettoyage, est examinée pour le préparer au déploiement.
Ouvrez le guide de mise en œuvre
L'exemple de code est un point de départ. Il s'agit d'un document validé par l'industrie, prescriptif mais non définitif, et d'un aperçu pour vous aider à commencer.
Contenu connexe
Guide
Guide pour l'analyse de données multimodales à l'aide des services d'IA et de ML pour la santé sur AWS
Ce guide explique la mise en place d’un cadre de bout en bout pour analyser les données multimodales relatives aux soins de santé et aux sciences de la vie (HCLS).
Contributeurs
Avis de non-responsabilité
Avez-vous trouvé les informations que vous recherchiez ?
Faites-nous part de vos commentaires afin que nous puissions améliorer le contenu de nos pages