Orientação para a integração e para a análise de dados multiômicos e multimodais na AWS
Visão geral
Como funciona
Arquitetura
Prepare dados genômicos, clínicos, de mutação, de expressão e de imagem para análise em grande escala e consulte um data lake.
CI/CD
Prepare dados genômicos, clínicos, de mutação, de expressão e de imagem para análise em grande escala e consulte um data lake.
Pilares do Well-Architected
O diagrama de arquitetura acima exemplifica a criação de uma solução pautada nas melhores práticas do Well-Architected. Para estar totalmente em conformidade com o Well-Architected, é necessário adotar o maior número possível de práticas recomendadas do Well-Architected.
Esta Orientação usa o CodeBuild e o CodePipeline para desenvolver, empacotar e implantar todos os componentes necessários da solução, permitindo ingerir e armazenar arquivos de chamadas de variantes (VCFs, na sigla em inglês) e trabalhar com dados multimodais e multiômicos dos conjuntos de dados do The Cancer Genome Atlas (TCGA) e do The Cancer Imaging Atlas (TCIA). A ingestão e a análise de dados genômicos com tecnologia sem servidor são demonstradas usando um serviço totalmente gerenciado, o Amazon Omics. As alterações de código realizadas no repositório do CodeCommit da solução serão implantadas por meio do pipeline de implantação do CodePipeline fornecido.
Esta Orientação usa o acesso baseado em perfis com o IAM e todos os buckets têm criptografia ativada, são privados e bloqueiam o acesso público. O catálogo de dados no AWS Glue tem a criptografia ativada e todos os metadados gravados pelo AWS Glue no Amazon S3 são criptografados. Todos os perfis são definidos com privilégios mínimos e todas as comunicações entre os serviços permanecem dentro da conta do cliente. Os administradores podem controlar o acesso aos dados do caderno Jupyter, do Amazon Omics Variant Stores e do Catálogo de Dados do AWS Glue, que é totalmente gerenciado usando o Lake Formation. Já o acesso aos dados do Athena, do caderno do SageMaker e do QuickSight é gerenciado por meio de perfis do IAM fornecidos.
O AWS Glue, o Amazon S3, o Amazon Omics e o Athena são todos recursos com tecnologia sem servidor e escalam a performance de acesso a dados conforme o volume de dados aumenta. O AWS Glue provisiona, configura e escala os recursos necessários para executar os trabalhos de integração de dados. O Athena tem tecnologia sem servidor, portanto, você pode consultar os dados rapidamente sem precisar configurar e gerenciar servidores ou data warehouses. O armazenamento na memória QuickSight SPICE permitirá escalar a sua exploração de dados para milhares de usuários.
Ao usar tecnologias sem servidor, você provisiona somente os recursos que realmente usa. Cada trabalho do AWS Glue provisionará um cluster o Spark sob demanda para transformar dados e desprovisionará os recursos quando a tarefa for concluída. Se você optar por adicionar novos conjuntos de dados do TCGA, poderá adicionar novos trabalhos do AWS Glue e crawlers do AWS Glue que também irão provisionar recursos sob demanda. O Athena executa consultas automaticamente em paralelo, de modo que a maioria dos resultados é retornada em segundos. O Amazon Omics otimiza a performance de consultas de variantes em grande escala, transformando arquivos em Apache Parquet.
Com o uso de tecnologias sem servidor que escalam conforme a demanda, você só paga pelos recursos que consome. Para otimizar ainda mais os custos, você pode interromper os ambientes de cadernos no SageMaker quando eles não estiverem em uso. O painel do QuickSight também é implantado por meio de um modelo do CloudFormation, portanto, se você não pretende usar o painel de visualização, pode optar por não implantá-lo para economizar custos. O Amazon Omics otimiza o custo de armazenamento de dados variantes em grande escala. Os custos das consultas são determinados pela quantidade de dados analisados pelo Athena e podem ser otimizados por meio da gravação de consultas adequadas.
Por meio do uso extensivo de serviços gerenciados e de escalabilidade dinâmica, você reduz o impacto ambiental dos serviços de backend. Um componente essencial para a sustentabilidade é maximizar o uso de instâncias de servidores de cadernos. Você deve encerrar os ambientes de cadernos quando não estiverem em uso.
Considerações adicionais
Transformação de dados
Essa arquitetura escolheu o AWS Glue para o processo de extração, transformação e carregamento (ETL) necessário para ingerir, preparar e catalogar os conjuntos de dados na solução para favorecer a consulta e a performance. Você pode adicionar novos trabalhos do AWS Glue e crawlers do AWS Glue para ingerir novos conjuntos de dados do The Cancer Genome Atlas (TCGA) e The Cancer Image Atlas (TCIA), conforme necessário. Você também pode adicionar novos trabalhos e crawlers para ingerir, preparar e catalogar seus próprios conjuntos de dados proprietários.
Análise de dados
Essa arquitetura escolheu os cadernos do SageMaker para fornecer um ambiente de caderno Jupyter para análise. Você pode adicionar novos blocos de anotações ao ambiente existente ou criar novos ambientes. Se você preferir cadernos RStudio em vez de cadernos Jupyter, é possível usar o RStudio no Amazon SageMaker.
Visualização de dados
Essa arquitetura escolheu o QuickSight para fornecer painéis interativos para visualização e exploração de dados. A configuração do painel do QuickSight é realizada por meio de um modelo do CloudFormation, portanto, caso não pretenda usar o painel, não precisará provisioná-lo. No QuickSight, é possível criar suas próprias análises, explorar filtros ou visualizações adicionais e compartilhar conjuntos de dados e análises com seus colegas.
Implante com confiança
Este repositório cria um ambiente escalável na AWS para preparar dados genômicos, clínicos, de mutação, de expressão e de imagem para análise em grande escala e realizar consultas interativas em um data lake. A solução demonstra como: 1) usar o HealthOmics Variant Store e o Annotation Store para armazenar dados de variantes genômicas e dados de anotação; 2) provisionar pipelines de ingestão de dados com tecnologia sem servidor para preparação e catalogação de dados multimodais; 3) visualizar e explorar dados clínicos por meio de uma interface interativa; e 4) executar consultas analíticas interativas em um data lake multimodal usando o Amazon Athena e o Amazon SageMaker.
É fornecido um guia detalhado para que você possa experimentar e usar o produto em sua conta da AWS. Cada etapa da elaboração da Orientação, incluindo implantação, uso e limpeza, é examinada para ajudar você a se preparar para a implantação.
O código de exemplo é um ponto de partida. Trata-se de uma solução validada pela indústria, prescritiva porém não definitiva, e uma visão detalhada dos bastidores para ajudar você a começar.
Conteúdo relacionado
Orientação
Orientação para a análise de dados multimodais com serviços de IA e ML no setor de saúde na AWS
Esta Orientação demonstra como configurar uma estrutura completa para analisar dados multimodais de saúde e ciências biológicas (HCLS).
Colaboradores
Aviso de isenção de responsabilidade
Você encontrou o que estava buscando?
Informe-nos para que possamos melhorar a qualidade do conteúdo em nossas páginas