Pular para o conteúdo principal

Biblioteca de Soluções da AWS

Orientação para a integração e para a análise de dados multiômicos e multimodais na AWS

Visão geral

Esta Orientação ajuda os usuários a preparar dados genômicos, clínicos, de mutação, de expressão e de imagem para análise em grande escala e a realizar consultas interativas em um data lake. Elas incluem automação de infraestrutura como código (IaC), integração e entrega contínuas (CI/CD) para rápida iteração, pipeline de ingestão para armazenar e transformar dados, além de blocos de anotações e painéis para análises interativas. Também demonstramos como os dados de anotações e variantes genômicas são armazenados e consultados com o AWS HealthOmics, Amazon Athena e blocos de anotações do Amazon SageMaker. Esta Orientação foi elaborada em colaboração com a  Bioteam

Como funciona

Arquitetura

Prepare dados genômicos, clínicos, de mutação, de expressão e de imagem para análise em grande escala e consulte um data lake.

Architecture diagram showing an AWS solution for multi-omics and multi-modal data integration, detailing data ingestion, transformation, cataloging, and analysis steps using services such as AWS Glue, Amazon Omics, AWS Lake Formation, Amazon Athena, Amazon QuickSight, and Jupyter notebook for visual and programmatic analysis of complex biomedical data.

CI/CD

Prepare dados genômicos, clínicos, de mutação, de expressão e de imagem para análise em grande escala e consulte um data lake.

Architecture diagram illustrating a CI/CD pipeline for AWS multi-omics and multi-modal data integration. The diagram showcases AWS services such as Amazon Omics, AWS Lake Formation, AWS Glue, Amazon Athena, AWS CodeCommit, AWS CodePipeline, Amazon QuickSight, AWS KMS, Amazon SageMaker, AWS IAM, and Amazon S3. It depicts the setup and workflow for integrating omics, imaging, and genomics data stacks, using AWS CloudFormation, CodeBuild, and various data processing and visualization services in a stepwise process from developer setup to data visualization.

Pilares do Well-Architected

O diagrama de arquitetura acima exemplifica a criação de uma solução pautada nas melhores práticas do Well-Architected. Para estar totalmente em conformidade com o Well-Architected, é necessário adotar o maior número possível de práticas recomendadas do Well-Architected.

    Esta Orientação usa o CodeBuild e o CodePipeline para desenvolver, empacotar e implantar todos os componentes necessários da solução, permitindo ingerir e armazenar arquivos de chamadas de variantes (VCFs, na sigla em inglês) e trabalhar com dados multimodais e multiômicos dos conjuntos de dados do The Cancer Genome Atlas (TCGA) e do The Cancer Imaging Atlas (TCIA). A ingestão e a análise de dados genômicos com tecnologia sem servidor são demonstradas usando um serviço totalmente gerenciado, o Amazon Omics. As alterações de código realizadas no repositório do CodeCommit da solução serão implantadas por meio do pipeline de implantação do CodePipeline fornecido.

    Leia o whitepaper sobre excelência operacional

    Esta Orientação usa o acesso baseado em perfis com o IAM e todos os buckets têm criptografia ativada, são privados e bloqueiam o acesso público. O catálogo de dados no AWS Glue tem a criptografia ativada e todos os metadados gravados pelo AWS Glue no Amazon S3 são criptografados. Todos os perfis são definidos com privilégios mínimos e todas as comunicações entre os serviços permanecem dentro da conta do cliente. Os administradores podem controlar o acesso aos dados do caderno Jupyter, do Amazon Omics Variant Stores e do Catálogo de Dados do AWS Glue, que é totalmente gerenciado usando o Lake Formation. Já o acesso aos dados do Athena, do caderno do SageMaker e do QuickSight é gerenciado por meio de perfis do IAM fornecidos.

    Leia o whitepaper sobre segurança

    O AWS Glue, o Amazon S3, o Amazon Omics e o Athena são todos recursos com tecnologia sem servidor e escalam a performance de acesso a dados conforme o volume de dados aumenta. O AWS Glue provisiona, configura e escala os recursos necessários para executar os trabalhos de integração de dados. O Athena tem tecnologia sem servidor, portanto, você pode consultar os dados rapidamente sem precisar configurar e gerenciar servidores ou data warehouses. O armazenamento na memória QuickSight SPICE permitirá escalar a sua exploração de dados para milhares de usuários. 

    Leia o whitepaper sobre confiabilidade

    Ao usar tecnologias sem servidor, você provisiona somente os recursos que realmente usa. Cada trabalho do AWS Glue provisionará um cluster o Spark sob demanda para transformar dados e desprovisionará os recursos quando a tarefa for concluída. Se você optar por adicionar novos conjuntos de dados do TCGA, poderá adicionar novos trabalhos do AWS Glue e crawlers do AWS Glue que também irão provisionar recursos sob demanda. O Athena executa consultas automaticamente em paralelo, de modo que a maioria dos resultados é retornada em segundos. O Amazon Omics otimiza a performance de consultas de variantes em grande escala, transformando arquivos em Apache Parquet.

    Leia o whitepaper sobre eficiência de performance

    Com o uso de tecnologias sem servidor que escalam conforme a demanda, você só paga pelos recursos que consome. Para otimizar ainda mais os custos, você pode interromper os ambientes de cadernos no SageMaker quando eles não estiverem em uso. O painel do QuickSight também é implantado por meio de um modelo do CloudFormation, portanto, se você não pretende usar o painel de visualização, pode optar por não implantá-lo para economizar custos. O Amazon Omics otimiza o custo de armazenamento de dados variantes em grande escala. Os custos das consultas são determinados pela quantidade de dados analisados ​​pelo Athena e podem ser otimizados por meio da gravação de consultas adequadas.

    Leia o whitepaper sobre otimização de custos

    Por meio do uso extensivo de serviços gerenciados e de escalabilidade dinâmica, você reduz o impacto ambiental dos serviços de backend. Um componente essencial para a sustentabilidade é maximizar o uso de instâncias de servidores de cadernos. Você deve encerrar os ambientes de cadernos quando não estiverem em uso. 

    Leia o whitepaper sobre sustentabilidade

Considerações adicionais

Transformação de dados

Essa arquitetura escolheu o AWS Glue para o processo de extração, transformação e carregamento (ETL) necessário para ingerir, preparar e catalogar os conjuntos de dados na solução para favorecer a consulta e a performance. Você pode adicionar novos trabalhos do AWS Glue e crawlers do AWS Glue para ingerir novos conjuntos de dados do The Cancer Genome Atlas (TCGA) e The Cancer Image Atlas (TCIA), conforme necessário. Você também pode adicionar novos trabalhos e crawlers para ingerir, preparar e catalogar seus próprios conjuntos de dados proprietários.

Análise de dados

Essa arquitetura escolheu os cadernos do SageMaker para fornecer um ambiente de caderno Jupyter para análise. Você pode adicionar novos blocos de anotações ao ambiente existente ou criar novos ambientes. Se você preferir cadernos RStudio em vez de cadernos Jupyter, é possível usar o RStudio no Amazon SageMaker.

Visualização de dados

Essa arquitetura escolheu o QuickSight para fornecer painéis interativos para visualização e exploração de dados. A configuração do painel do QuickSight é realizada por meio de um modelo do CloudFormation, portanto, caso não pretenda usar o painel, não precisará provisioná-lo. No QuickSight, é possível criar suas próprias análises, explorar filtros ou visualizações adicionais e compartilhar conjuntos de dados e análises com seus colegas.

Implante com confiança

Este repositório cria um ambiente escalável na AWS para preparar dados genômicos, clínicos, de mutação, de expressão e de imagem para análise em grande escala e realizar consultas interativas em um data lake. A solução demonstra como: 1) usar o HealthOmics Variant Store e o Annotation Store para armazenar dados de variantes genômicas e dados de anotação; 2) provisionar pipelines de ingestão de dados com tecnologia sem servidor para preparação e catalogação de dados multimodais; 3) visualizar e explorar dados clínicos por meio de uma interface interativa; e 4) executar consultas analíticas interativas em um data lake multimodal usando o Amazon Athena e o Amazon SageMaker.

É fornecido um guia detalhado para que você possa experimentar e usar o produto em sua conta da AWS. Cada etapa da elaboração da Orientação, incluindo implantação, uso e limpeza, é examinada para ajudar você a se preparar para a implantação.

Abra o guia de implementação

O código de exemplo é um ponto de partida. Trata-se de uma solução validada pela indústria, prescritiva porém não definitiva, e uma visão detalhada dos bastidores para ajudar você a começar.

Implante o código de exemplo no Console da AWS

Abra o código de exemplo no GitHub

Conteúdo relacionado

Orientação

Orientação para a análise de dados multimodais com serviços de IA e ML no setor de saúde na AWS

Esta Orientação demonstra como configurar uma estrutura completa para analisar dados multimodais de saúde e ciências biológicas (HCLS).

Saiba mais

Colaboradores

A BioTeam é uma empresa de consultoria de TI para ciências biológicas, apaixonada por acelerar a descoberta científica, reduzindo a lacuna entre o que os cientistas desejam fazer com os dados e o que eles realmente conseguem fazer. Trabalhando na interseção de ciência, dados e tecnologia desde 2002, a BioTeam possui recursos interdisciplinares para aplicar estratégias, tecnologias avançadas e serviços de TI que solucionam os problemas de pesquisa, técnicos e operacionais mais desafiadores. Com a habilidade para transformar necessidades científicas em poderosos ecossistemas de dados científicos, temos orgulho de nossa capacidade de fazer parceria com uma ampla gama de líderes em pesquisa em ciências biológicas, de startups de biotecnologia às maiores empresas farmacêuticas globais, de agências do governo federal a instituições de pesquisa acadêmica.
Logo for BioTeam featuring the tagline 'Accelerate Science' with stylized horizontal bars in blue and teal tones.

Aviso de isenção de responsabilidade

O código de exemplo, as bibliotecas de software, as ferramentas de linha de comando, as provas de conceito, os modelos ou outra tecnologia relacionada (incluindo qualquer uma das anteriores fornecidas por nossa equipe) são fornecidos a você como Conteúdo da AWS nos termos do Contrato de Cliente da AWS ou o contrato por escrito pertinente entre você e a AWS (o que for aplicável). Você não deve usar esse Conteúdo da AWS em suas contas de produção, na produção ou em outros dados essenciais. Você é responsável por testar, proteger e otimizar o Conteúdo da AWS, como código de exemplo, conforme apropriado para uso em nível de produção com base em suas práticas e padrões específicos de controle de qualidade. A implantação de Conteúdo da AWS pode gerar cobranças da AWS para criar ou usar recursos cobráveis, como executar instâncias do Amazon EC2 ou usar armazenamento do Amazon S3.

Você encontrou o que estava buscando?

Informe-nos para que possamos melhorar a qualidade do conteúdo em nossas páginas