Saltar al contenido principal

Biblioteca de soluciones de AWS

Orientación para la integración y el análisis de datos multimodales y multiómicos en AWS

Información general

Esta orientación ayuda a los usuarios a preparar los datos genómicos, clínicos, de mutaciones, de expresión y de imágenes para el análisis a gran escala y a realizar consultas interactivas contra un lago de datos. Incluye la automatización de la infraestructura como código (IaC), la integración y la entrega continuas (CI/CD) para una iteración rápida, una canalización de la ingesta para almacenar y transformar los datos, y cuadernos y paneles para el análisis interactivo. También se enseña cómo se almacenan y consultan los datos de las variantes y las anotaciones genómicas con el uso de cuadernos de Amazon SageMaker, AWS HealtHomics y Amazon Athena. Esta guía se creó en colaboración con Bioteam.

Funcionamiento

Arquitectura

Prepare datos genómicos, clínicos, de mutación, expresión e imágenes para analizarlos a gran escala y consultarlos en un lago de datos.

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

CI/CD

Prepare datos genómicos, clínicos, de mutación, expresión e imágenes para analizarlos a gran escala y consultarlos en un lago de datos.

Architecture diagram illustrating a CI/CD pipeline for AWS multi-omics and multi-modal data integration. The diagram showcases AWS services such as Amazon Omics, AWS Lake Formation, AWS Glue, Amazon Athena, AWS CodeCommit, AWS CodePipeline, Amazon QuickSight, AWS KMS, Amazon SageMaker, AWS IAM, and Amazon S3. It depicts the setup and workflow for integrating omics, imaging, and genomics data stacks, using AWS CloudFormation, CodeBuild, and various data processing and visualization services in a stepwise process from developer setup to data visualization.

Pilares de AWS Well-Architected Framework

El diagrama de arquitectura mencionado es un ejemplo de una solución que se creó teniendo en cuenta las prácticas recomendadas de una buena arquitectura. Para tener completamente una buena arquitectura, debe seguir todas las prácticas recomendadas de buena arquitectura posibles.

Esta guía utiliza CodeBuild y CodePipeline para crear, empaquetar e implementar todo lo necesario en la solución para ingerir y almacenar archivos de llamadas variantes (VCF) y trabajar con datos multimodales y multiómicos de los conjuntos de datos de The Cancer Genome Atlas (TCGA) y The Cancer Imaging Atlas (TCIA). La ingesta y el análisis de datos genómicos sin servidor se demuestran mediante un servicio totalmente gestionado: Amazon Omics. Los cambios de código realizados en el repositorio de CodeCommit de la solución se implementarán a través del proceso de implementación de CodePipeline proporcionado.

Lea el documento técnico sobre excelencia operativa

Esta guía utiliza el acceso basado en roles con IAM y todos los buckets tienen el cifrado habilitado, son privados y bloquean el acceso público. El catálogo de datos de AWS Glue tiene el cifrado habilitado y todos los metadatos escritos por AWS Glue en Amazon S3 están cifrados. Todos los roles se definen con privilegios mínimos y todas las comunicaciones entre servicios permanecen en la cuenta del cliente. Los administradores pueden controlar Jupyter Notebook, los datos de Amazon Omics Variant Store y el acceso a los datos de AWS Glue Catalog se administra por completo mediante Lake Formation, y el acceso a los datos de Athena, SageMaker Notebook y QuickSight se administra mediante las funciones de IAM proporcionadas.

Lea el documento técnico sobre seguridad

AWS Glue, Amazon S3, Amazon Omics y Athena no tienen servidores y escalarán el rendimiento del acceso a los datos a medida que aumente el volumen de datos. AWS Glue aprovisiona, configura y escala los recursos necesarios para ejecutar sus trabajos de integración de datos. Athena no tiene servidores, por lo que puede consultar sus datos rápidamente sin tener que configurar y administrar ningún servidor o almacén de datos. El almacenamiento en memoria QuickSight SPICE ampliará su exploración de datos a miles de usuarios. 

Lea el documento técnico sobre fiabilidad

Mediante el uso de tecnologías sin servidor, solo aprovisiona los recursos exactos que utiliza. Cada trabajo de AWS Glue aprovisionará un clúster de Spark bajo demanda para transformar los datos y desaprovisionar los recursos cuando termine. Si decide agregar nuevos conjuntos de datos de TCGA, puede agregar nuevos trabajos de AWS Glue y rastreadores de AWS Glue que también previsualizarán los recursos bajo demanda. Athena ejecuta automáticamente las consultas en paralelo, por lo que la mayoría de los resultados se obtienen en cuestión de segundos. Amazon Omics optimiza el rendimiento de las consultas de variantes a escala al transformar los archivos en Apache Parquet.

Lea el documento técnico sobre eficacia del rendimiento

Mediante el uso de tecnologías sin servidor que escalan bajo demanda, solo paga por los recursos que utiliza. Para optimizar aún más los costos, puede detener los entornos de cuadernos en SageMaker cuando no estén en uso. El panel de QuickSight también se implementa mediante una plantilla de CloudFormation independiente, por lo que si no tiene intención de utilizar el panel de visualización, puede optar por no implementarlo para ahorrar costos. Amazon Omics optimiza el costo de almacenamiento de datos de las variantes a escala. Los costos de las consultas vienen determinados por la cantidad de datos escaneados por Athena y se pueden optimizar escribiendo consultas en consecuencia.

Lea el documento técnico sobre optimización de costos

Al utilizar ampliamente los servicios administrados y el escalado dinámico, minimiza el impacto ambiental de los servicios de backend. Un componente fundamental para la sostenibilidad es maximizar el uso de las instancias de servidores de cuadernos. Debe detener los entornos del portátil cuando no esté en uso. 

Lea el documento técnico sobre sostenibilidad

Consideraciones adicionales

Transformación de datos

Esta arquitectura eligió AWS Glue para la extracción, transformación y carga (ETL) necesaria para ingerir, preparar y catalogar los conjuntos de datos de la solución con fines de consulta y rendimiento. Puede agregar nuevos AWS Glue Jobs y AWS Glue Crawlers para ingerir nuevos conjuntos de datos de The Cancer Genome Atlas (TCGA) y The Cancer Image Atlas (TCIA), según sea necesario. También puede agregar trabajos y rastreadores nuevos para ingerir, preparar y catalogar sus propios conjuntos de datos.

Análisis de datos

Esta arquitectura eligió SageMaker Notebooks para proporcionar un entorno de cuadernos Jupyter para el análisis. Puede agregar cuadernos nuevos al entorno existente o crear entornos nuevos. Si prefiere los cuadernos de RStudio a los de Jupyter, puede usar RStudio en Amazon SageMaker.

Visualización de datos

Esta arquitectura eligió QuickSight para proporcionar paneles interactivos para la visualización y exploración de datos. La configuración del panel de QuickSight se realiza mediante una plantilla de CloudFormation independiente, por lo que si no tiene la intención de utilizar el panel, no tiene que aprovisionarlo. En QuickSight, puede crear sus propios análisis, explorar filtros o visualizaciones adicionales y compartir conjuntos de datos y análisis con sus colegas.

Implemente con confianza

Este repositorio crea un entorno escalable en AWS a fin de preparar datos genómicos, clínicos, de mutaciones, de expresión y de imágenes para el análisis a gran escala y realizar consultas interactivas en un lago de datos. La solución demuestra cómo 1) usar HealTomics Variant Store y Annotation Store para almacenar datos de variantes genómicas y datos de anotación, 2) aprovisionar canales de ingesta de datos sin servidor para la preparación y catalogación de datos multimodales, 3) visualizar y explorar datos clínicos a través de una interfaz interactiva y 4) ejecutar consultas analíticas interactivas en un lago de datos multimodal con Amazon Athena y Amazon SageMaker.

Se proporciona una guía detallada para experimentar y utilizar dentro de su cuenta de AWS. Se examina cada etapa de la creación de la guía, incluida la implementación, el uso y la limpieza, con el fin de prepararla para su implementación.

Vaya a la guía de implementación

El código de muestra es un punto de partida. Está validado por el sector, es prescriptivo pero no definitivo, y le permite profundizar en su funcionamiento para que le sea más fácil empezar.

Implemente código de muestra en la consola de AWS

Abrir el código de muestra en GitHub

Contenido relacionado

Orientación

Guía para el análisis de datos multimodales con servicios de IA y ML para el sector sanitario en AWS

En esta guía, se muestra cómo configurar un marco integral para analizar los datos multimodales sanitarios y de ciencias biológicas (HCLS).

Más información

Colaboradores

BioTeam es una empresa de consultoría de TI en ciencias biológicas apasionada por acelerar el descubrimiento científico al cerrar la brecha entre lo que los científicos quieren hacer con los datos y lo que pueden hacer. Al trabajar en la intersección de la ciencia, los datos y la tecnología desde 2002, BioTeam tiene las capacidades interdisciplinarias para aplicar estrategias, tecnologías avanzadas y servicios de TI que resuelven los problemas operativos, técnicos y de investigación más desafiantes. Expertos en convertir las necesidades científicas en poderosos ecosistemas de datos científicos, nos enorgullecemos de nuestra capacidad para asociarnos con una amplia gama de líderes en la investigación de las ciencias biológicas, desde empresas emergentes de biotecnología hasta las empresas farmacéuticas más grandes del mundo, desde agencias gubernamentales federales hasta instituciones académicas de investigación.
Logo for BioTeam featuring the tagline 'Accelerate Science' with stylized horizontal bars in blue and teal tones.

Descargo de responsabilidad

El código de muestra; las bibliotecas de software; las herramientas de línea de comandos; las pruebas de concepto; las plantillas; o cualquier otra tecnología relacionada (incluida cualquiera de las anteriores que proporcione nuestro personal) se brinda como contenido de AWS bajo el Contrato de cliente de AWS, o el contrato escrito pertinente entre usted y AWS (lo que sea aplicable). No debe utilizar este contenido de AWS en sus cuentas de producción, ni en producción ni en otros datos críticos. Es responsable de probar, proteger y optimizar el contenido de AWS, como el código de muestra, según corresponda para el uso de grado de producción en función de sus prácticas y estándares de control de calidad específicos. La implementación de contenido de AWS puede incurrir en cargos de AWS por crear o utilizar recursos con cargo de AWS, como poner en marcha instancias de Amazon EC2 o utilizar el almacenamiento de Amazon S3.

¿Ha encontrado lo que buscaba hoy?

Ayúdenos a mejorar la calidad del contenido de nuestras páginas compartiendo sus comentarios