Passa al contenuto principale

Biblioteca di soluzioni AWS

Guida all'integrazione e all'analisi dei dati multi-omici e multi-modali in AWS

Panoramica

Questa guida aiuta gli utenti a preparare dati genomici, clinici, di mutazione, di espressione e di imaging per un'analisi su larga scala e a eseguire query interattive su un data lake. Include l'automazione dell'infrastructure as code (IaC), l'integrazione continua e la distribuzione continua (CI/CD) per un'iterazione rapida, una pipeline di acquisizione per archiviare e trasformare i dati, notebook e pannelli di controllo per l'analisi interattiva. Dimostriamo anche come i dati di varianti e annotazioni di genomica vengono archiviati e interrogati utilizzando i notebook AWS HealthOmics, Amazon Athena e Amazon SageMaker. Questa guida è stata creata in collaborazione con Bioteam.

Come funziona

Architettura

Prepara dati genomici, clinici, di mutazione, espressione e imaging per analisi e interrogazioni su larga scala su un data lake.

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

Integrazione e distribuzione continue

Prepara dati genomici, clinici, di mutazione, espressione e imaging per analisi e interrogazioni su larga scala su un data lake.

Architecture diagram illustrating a CI/CD pipeline for AWS multi-omics and multi-modal data integration. The diagram showcases AWS services such as Amazon Omics, AWS Lake Formation, AWS Glue, Amazon Athena, AWS CodeCommit, AWS CodePipeline, Amazon QuickSight, AWS KMS, Amazon SageMaker, AWS IAM, and Amazon S3. It depicts the setup and workflow for integrating omics, imaging, and genomics data stacks, using AWS CloudFormation, CodeBuild, and various data processing and visualization services in a stepwise process from developer setup to data visualization.

Principi di Well-Architected

Il diagramma dell'architettura sopra riportato è un esempio di una soluzione creata tenendo conto delle best practice Well-Architected. Per essere completamente Well-Architected, dovresti seguire il maggior numero possibile di best practice.

Questa guida utilizza CodeBuild e CodePipeline per creare, impacchettare e distribuire tutto il necessario nella soluzione per importare e archiviare i Variant Call Files (VCF) e lavorare con dati multimodali e multi-omici provenienti dai set di dati di The Cancer Genome Atlas (TCGA) e The Cancer Imaging Atlas (TCIA). L'inserimento e l'analisi dei dati genomici serverless sono dimostrati utilizzando un servizio completamente gestito: Amazon Omics. Le modifiche al codice apportate nel repository CodeCommit della soluzione verranno distribuite tramite la pipeline di distribuzione CodePipeline fornita.

Leggi il whitepaper sull'eccellenza operativa

Questa guida utilizza l'accesso basato sui ruoli con IAM e tutti i bucket hanno la crittografia abilitata, sono privati e bloccano l'accesso pubblico. Il catalogo di dati in AWS Glue ha la crittografia abilitata e tutti i metadati scritti da AWS Glue su Amazon S3 sono crittografati. Tutti i ruoli sono caratterizzati da privilegio minimo e tutte le comunicazioni tra i servizi rientrano nell'account cliente. Gli amministratori possono controllare il notebook Jupyter, i dati di Amazon Omics Variant Stores e l'accesso ai dati di AWS Glue Catalog è completamente gestito tramite Lake Formation e l'accesso ai dati di Athena, SageMaker Notebook e QuickSight è gestito tramite i ruoli IAM forniti.

Leggi il whitepaper sulla sicurezza

AWS Glue, Amazon S3, Amazon Omics e Athena sono tutti serverless e scaleranno le prestazioni di accesso ai dati all'aumentare del volume di dati. AWS Glue effettua il provisioning, configura e ridimensiona le risorse necessarie per eseguire i processi di integrazione dei dati. Athena è serverless, quindi puoi interrogare rapidamente i tuoi dati senza dover configurare e gestire server o data warehouse. Lo storage in memoria QuickSight SPICE scalerà l'esplorazione dei dati a migliaia di utenti. 

Leggi il whitepaper sull'affidabilità

Grazie a tecnologie serverless, eseguirai il provisioning soltanto delle risorse che utilizzi. Ogni job di AWS Glue fornirà un cluster Spark su richiesta per trasformare i dati e annullare il provisioning delle risorse una volta completato. Se scegli di aggiungere nuovi set di dati TCGA, puoi aggiungere nuovi job AWS Glue e crawler AWS Glue che eseguiranno anche la previsione delle risorse su richiesta. Athena esegue automaticamente le query in parallelo, quindi la maggior parte dei risultati viene restituita in pochi secondi. Amazon Omics ottimizza le prestazioni delle query sulle varianti su larga scala trasformando i file in Apache Parquet.

Leggi il whitepaper sull'efficienza delle prestazioni

Grazie all'utilizzo di tecnologie serverless che scalano le risorse on demand, pagherai soltanto le risorse che utilizzi. Per ottimizzare ulteriormente i costi, è possibile arrestare gli ambienti notebook in SageMaker quando non sono in uso. La dashboard QuickSight viene inoltre implementata tramite un modello CloudFormation separato, quindi se non intendi utilizzare la dashboard di visualizzazione, puoi scegliere di non implementarla per risparmiare sui costi. Amazon Omics ottimizza i costi di storage dei dati delle varianti su larga scala. I costi delle interrogazioni sono determinati dalla quantità di dati scansionati da Athena e possono essere ottimizzati scrivendo le query di conseguenza.

Leggi il whitepaper sull'ottimizzazione dei costi

Tramite un ampio utilizzo dei servizi gestiti e della scalabilità dinamica, potrai ridurre l'impatto ambientale dei servizi di back-end. Un fattore fondamentale per la sostenibilità è massimizzare l'uso delle istanze del server notebook. È necessario arrestare gli ambienti del notebook quando non vengono utilizzati. 

Leggi il whitepaper sulla sostenibilità

Ulteriori considerazioni

Trasformazione dei dati

Questa architettura ha scelto AWS Glue per l'Extract, Transform and Load (ETL) necessario per importare, preparare e catalogare i set di dati nella soluzione per query e prestazioni. Puoi aggiungere nuovi AWS Glue Jobs e AWS Glue Crawler per inserire nuovi set di dati The Cancer Genome Atlas (TCGA) e The Cancer Image Atlas (TCIA), se necessario. Puoi aggiungere anche nuovi processi e crawler per importare, preparare e catalogare i set di dati.

Analisi dei dati

Questa architettura ha scelto SageMaker Notebooks per fornire un ambiente notebook Jupyter per l'analisi. Puoi aggiungere nuovi notebook all'ambiente esistente o crearne dei nuovi. Se preferisci RStudio ai notebook Jupyter, puoi usare RStudio su Amazon SageMaker.

Visualizzazione di dati

Questa architettura ha scelto QuickSight per fornire dashboard interattive per la visualizzazione e l'esplorazione dei dati. La configurazione del dashboard QuickSight avviene tramite un modello CloudFormation separato, quindi se non intendi utilizzare il dashboard non devi eseguirne il provisioning. In QuickSight, puoi creare la tua analisi, esplorare filtri o visualizzazioni aggiuntivi e condividere set di dati e analisi con i colleghi.

Implementazione sicura

Questo repository crea un ambiente scalabile in AWS per preparare dati genomici, clinici, di mutazione, di espressione e di diagnostica per immagini per un'analisi su larga scala e per eseguire query interattive in un data lake. La soluzione dimostra come 1) utilizzare HealthOMICS Variant Store & Annotation Store per archiviare dati di varianti genomiche e dati di annotazione, 2) fornire pipeline di inserimento dati serverless per la preparazione e la catalogazione dei dati multimodali, 3) visualizzare ed esplorare i dati clinici tramite un'interfaccia interattiva e 4) eseguire query analitiche interattive su un data lake multimodale utilizzando Amazon Athena e Amazon SageMaker.

Viene fornita una guida dettagliata da sperimentare e utilizzare all'interno del tuo account AWS. Ogni fase della creazione della guida, inclusa l'implementazione, l'utilizzo e la pulizia, viene esaminata per prepararla all'implementazione.

Apri la guida all'implementazione

Il codice di esempio è un punto di partenza. È convalidato dal settore, prescrittivo ma non definitivo, ed è il punto di partenza per iniziare a lavorare.

Distribuisci codice di esempio nella Console AWS

Apri codice di esempio su GitHub

Contenuti correlati

Guida

Guida per l'analisi multi-modale dei dati con servizi di intelligenza artificiale e ML per la salute su AWS

Questa guida dimostra come impostare un framework end-to-end per analizzare i dati multi-modali relativi all'assistenza sanitaria e alle scienze della vita (HCLS).

Ulteriori informazioni

Collaboratori

BioTeam è un'azienda di consulenza IT operante nel settore delle scienze biologiche che ha l'obiettivo di accelerare le scoperte scientifiche riducendo il divario esistente tra ciò che gli scienziati vogliono fare e ciò che possono fare con i dati. Grazie al suo lavoro nel settore della scienza, dei dati e della tecnologia dal 2002, BioTeam ha acquisito le competenze interdisciplinari necessarie per l'applicazione di strategie, tecnologie avanzate e servizi IT per poter risolvere i più complessi problemi di ricerca, tecnici e operativi. Grazie alle nostre competenze nel convertire le necessità della scienza in potenti ecosistemi per dati scientifici, siamo orgogliosi di collaborare con tantissimi leader nell'ambito della ricerca delle scienze biologiche, dalle startup biotech alle più grandi aziende farmaceutiche, dalle agenzie governative agli istituti di ricerca.
Logo for BioTeam featuring the tagline 'Accelerate Science' with stylized horizontal bars in blue and teal tones.

Avvertenza

Il codice di esempio, le librerie software, gli strumenti della linea di comando, le proof of concept, i modelli e le altre tecnologie correlate (comprese tutte le tecnologie di cui sopra fornite dal nostro personale) vengono forniti all'utente sotto forma di contenuto AWS ai sensi dell'Accordo cliente AWS o del relativo accordo scritto stipulato tra l'utente e AWS (a seconda dei casi). Non bisogna utilizzare il contenuto AWS in questione negli account di produzione o sui dati di produzione o altri dati fondamentali. L'utente è responsabile dei test, della sicurezza e dell'ottimizzazione del contenuto AWS, come il codice di esempio, in modo appropriato per l'utilizzo in produzione sulla base delle pratiche e degli standard di qualità specifici. L'implementazione del contenuto AWS può comportare costi AWS per la creazione o l'utilizzo di risorse AWS addebitabili, quali le istanze Amazon EC2 in esecuzione o l'archiviazione Amazon S3.

Hai trovato quello che cercavi?

Facci sapere la tua opinione in modo da migliorare la qualità dei contenuti delle nostre pagine