- Analytics›
- Amazon SageMaker›
- Arquitetura de lakehouse
A arquitetura de lakehouse do Amazon SageMaker
Simplifique o analytics e a IA com uma arquitetura de data lakehouse unificada, aberta e segura
Visão geral
A próxima geração do Amazon SageMaker é criada em uma arquitetura de lakehouse aberta, totalmente compatível com o Apache Iceberg. Unifique todos os dados em data lakes do Amazon Simple Storage Service (Amazon S3), incluindo Tabelas do S3, e data warehouses do Amazon Redshift, para criar aplicações poderosas de analytics e IA/ML em uma única cópia dos dados. Conecte dados de fontes adicionais por meio de integrações ETL zero com bancos de dados e aplicações operacionais, federação de consultas com fontes de dados e federação de catálogos para tabelas remotas do Apache Iceberg. Obtenha flexibilidade para acessar e consultar seus dados no local com todas as ferramentas e mecanismos compatíveis com o Iceberg. Proteja seus dados definindo controles de acesso integrados que são aplicados em todas as ferramentas e mecanismos de analytics e machine learning (ML).
Veja em ação
Veja como você pode acessar dados unificados de data lakes do S3, Tabelas do S3 e data warehouses do Redshift em um data lakehouse seguro e aberto.
Benefícios
Unifique todos os dados nos data lakes do Amazon S3, incluindo Tabelas do S3, e data warehouses do Amazon Redshift. Transfira seus dados de bancos de dados operacionais e de aplicações para o lakehouse praticamente em tempo real por meio de integrações ETL zero. Acesse e consulte dados no local em fontes de dados de terceiros, por meio de recursos de federação de consultas. Além disso, obtenha acesso direto, seguro e econômico a tabelas do Iceberg armazenadas no S3 e registradas em catálogos remotos, a partir de mecanismos de analytics da AWS por meio da federação de catálogos.
Obtenha a flexibilidade de acessar e consultar seus dados diretamente com todas as ferramentas e mecanismos analíticos compatíveis com o Apache Iceberg, como SQL, Apache Spark, business intelligence (BI) e ferramentas de IA/ML para acessar dados unificados em seu lakehouse.
Proteja todos os dados com controles de acesso integrados e detalhados em nível de tabela, coluna ou célula e aplique essas permissões em todas as suas ferramentas e mecanismos de analytics. Use políticas de acesso baseadas em etiquetas, atributos ou perfis para atender aos seus requisitos de segurança. Compartilhe dados em toda a sua organização sem criar cópias.
Casos de uso
Unifique todos os seus dados em data lakes do Amazon S3 e em data warehouses do Amazon Redshift para suas iniciativas de analytics e de IA, com uma única cópia dos dados. Os controles de acesso integrados permitem que você defina as permissões refinadas e o compartilhamento seguro de uma única cópia dos dados por toda a organização.
Acesse dados praticamente em tempo real em bancos de dados operacionais e aplicações por meio de integrações ETL zero. Acesse e consulte seus dados diretamente ao usar uma ampla variedade de serviços da AWS e ferramentas e mecanismos de código aberto e de entidades terceiras que são compatíveis com o Apache Iceberg.
Transfira dados existentes de vários data warehouses do Amazon Redshift para o lakehouse com a finalidade de consultar e unir dados armazenados em clusters e grupos de trabalho do Amazon Redshift. Escale as workloads para processos de extração, transformação e carregamento (ETL), geração de relatórios de BI e análises sob demanda, sem a necessidade de gerenciar vários compartilhamentos de dados.
Clientes
Lennar
“Dedicamos os últimos 18 meses trabalhando em parceria com a AWS para transformar nossa base de dados, usando as melhores soluções da categoria que também são economicamente viáveis. Com inovações como o Estúdio Unificado Amazon SageMaker e o Amazon SageMaker Lakehouse, esperamos acelerar nossa velocidade de entrega por meio de acesso integrado a dados e serviços. Isso possibilitará que nossos engenheiros, analistas e cientistas obtenham insights que agreguem valor relevante ao nosso negócio.”
Lee Slezak, vice-presidente sênior do departamento de dados e analytics, Lennar
Roche
A Roche é pioneira global em produtos farmacêuticos e para diagnóstico focados no avanço da ciência para melhorar a vida das pessoas.
“Estamos usando o Amazon Redshift para obter insights de dados estruturados e semiestruturados em todos os nossos repositórios de dados. Estou entusiasmado com o novo Amazon SageMaker Lakehouse e seu potencial para otimizar e unificar o acesso aos data lakes e às outras fontes de dados por meio de serviços como o Amazon Redshift, o Catálogo de Dados do AWS Glue e o AWS Lake Formation. Essa inovação permitirá que nossas equipes de dados e de engenharia simplifiquem o acesso aos dados, promovendo a interoperabilidade em dados, analytics e workloads de aplicações. Prevejo uma redução significativa nos erros relacionados aos dados devido à diminuição das cópias de dados, uma diminuição de 40% no tempo de processamento, um retorno mais rápido de dados de analytics para os sistemas transacionais, o que aprimorará a tomada de decisões, além de permitir que nossas equipes se concentrem na geração de valor para os negócios.”
Yannick Misteli, diretor de engenharia no departamento de estratégia global de produtos, Roche
Idealista
A Idealista apoia agentes imobiliários e particulares em todo o sul da Europa, fornecendo uma plataforma on-line de classificados imobiliários.
“Nosso objetivo é simplificar o acesso aos dados do Salesforce para aprimorar o analytics em nosso data lake. Ao aproveitar a nova compatibilidade do Amazon SageMaker Lakehouse com integrações ETL zero nos atributos das aplicações, podemos simplificar nossos processos de extração e ingestão de dados, eliminando a necessidade de vários ETLs acessarem diretamente o Salesforce. Essa abordagem centralizada reduz a complexidade e melhora significativamente nossa eficiência de gerenciamento de dados. Esperamos ter uma economia significativa de tempo no desenvolvimento da extração e ingestão de dados, permitindo que nossa equipe se concentre em obter insights acionáveis de nossos dados, em vez de gerenciar sua coleta.”
Javier Monterrubio, gerente de engenharia de plataforma de dados, Idealista
Carrier
“Na Carrier, a próxima geração do Amazon SageMaker está transformando nossa estratégia de dados corporativos ao simplificar a forma como criamos e escalamos produtos de dados. A abordagem do Estúdio Unificado SageMaker para descoberta, processamento e desenvolvimento de modelos de dados acelerou significativamente nossa implementação no lakehouse. O mais impressionante é que sua integração perfeita com nosso catálogo de dados existente e os controles de governança integrados nos permitem democratizar o acesso aos dados e, ao mesmo tempo, manter os padrões de segurança, ajudando nossas equipes a fornecer rapidamente soluções avançadas de analytics e IA em toda a empresa.”
Parceiros
Tableau
A Tableau ajuda pessoas e organizações a se tornarem mais orientadas por dados.
“A parceria entre a Amazon e a Salesforce Tableau representa um compromisso compartilhado com a inovação e o sucesso do cliente. Por meio da nova Integração ETL zero da Amazon, estamos combinando dados e analytics baseados em IA da Tableau com a avançada infraestrutura de dados da Amazon para transformar a forma como as organizações obtêm insights de seus dados. Essa integração perfeita permite que nossos clientes obtenham insights de todos os seus dados estruturados e não estruturados usando o poder do Amazon SageMaker Lakehouse e do Amazon Redshift, reduzindo de forma significativa a complexidade da engenharia e o tempo de implantação. Juntas, a Tableau e a Amazon estão ajudando os clientes a acelerar a transformação digital e a gerar valor comercial em grande escala.”
Ali Tore, vice-presidente sênior de analytics avançado, Tableau
dbt Labs
A dbt Labs tem a missão de ajudar analistas a criar e disseminar o conhecimento organizacional.
“Há muito tempo somos o padrão de transformação, além do Amazon Redshift, oferecendo flexibilidade, colaboração e confiança. Com o novo Amazon SageMaker Lakehouse, estamos entusiasmados com a possibilidade de estender esse valor para mais clientes e ainda mais dados no ambiente da AWS. Agora, os clientes podem acessar todos os dados em todo o sistema da AWS, incluindo data warehouses e data lakes. É uma realização muito grande unir nossos recursos ao novo Amazon SageMaker para oferecer governança, catalogação e otimizações de dados para nossos clientes conjuntos.”
Shawn Toldo, vice-presidente de parcerias, dbt Labs
Informatica
A Informatica, líder em gerenciamento de dados em nuvem baseados em IA empresarial, dá vida aos dados e à IA ao capacitar as empresas a perceberem o poder transformador de seus ativos mais cruciais.
“Nossa plataforma Intelligent Data Management Cloud (IDMC) e o Amazon SageMaker ajudam as organizações a descobrir o potencial dos dados e a impulsionar a inovação e a eficiência. Como parceiro de lançamento do Amazon SageMaker Lakehouse, estamos orgulhosos em oferecer uma solução de nível corporativo que atende aos altos padrões das organizações modernas orientadas por dados. Junto com a infraestrutura da AWS, possibilitamos decisões mais rápidas e informadas para resultados impactantes em todos os setores.”
Pratik Parekh, vice-presidente sênior de gerenciamento de produtos, Informatica