A nova geração do Amazon SageMaker foi desenvolvida com base em uma arquitetura de lakehouse aberta, que unifica todos os dados armazenados em data lakes do Amazon Simple Storage Service (Amazon S3), incluindo as Tabelas do S3, e em data warehouses do Amazon Redshift, possibilitando o desenvolvimento de aplicações avançadas de analytics e de IA/ML em uma única fonte de dados. No lakehouse, você paga somente pelos recursos efetivamente usados. O armazenamento de metadados e as solicitações de API seguem os preços do Catálogo de Dados do AWS Glue, incluindo o nível gratuito da AWS. Os custos de computação e de armazenamento de dados dependem de sua escolha entre o Amazon S3 ou o armazenamento gerenciado do Amazon Redshift (RMS). Os preços dos recursos subjacentes estão descritos abaixo.

Metadados: as definições de dados são organizadas em uma hierarquia lógica de catálogos, bancos de dados e tabelas usando o Catálogo de Dados do AWS Glue.

  • Catálogo: um contêiner lógico que contém objetos de um armazenamento de dados, como esquemas, tabelas, visualizações ou visões materializadas do Amazon Redshift. Você pode agrupar catálogos em um catálogo para corresponder aos níveis de hierarquias da fonte de dados que você está trazendo para o lakehouse.
  • Banco de dados: os bancos de dados podem ser usados para organizar os objetos de dados, como tabelas e visualizações, no lakehouse.
  • Tabelas e visualizações: as tabelas e as visualizações são objetos de dados em um banco de dados que descrevem como acessar os dados subjacentes, como esquemas, partições, locais de armazenamento, formatos de armazenamento e consultas SQL para acessar os dados.

Os metadados no lakehouse podem ser acessados usando as APIs do AWS Glue. Para o armazenamento de metadados e as solicitações de API, aplicam-se os preços para metadados do Catálogo de Dados do AWS Glue, incluindo o nível gratuito da AWS. Para obter mais informações, acesse os preços do AWS Glue.

Armazenamento de dados e acesso: durante o acesso aos dados no lakehouse, é possível realizar a leitura e a gravação de dados no Amazon S3 ou no RMS. Com base no tipo de armazenamento que você escolher para armazenar dados no lakehouse, você incorrerá em custos adicionais de armazenamento e de computação para acessar o armazenamento subjacente. Acesse os preços do AWS Glue para obter mais detalhes sobre os preços de armazenamento e de computação para os diferentes tipos de armazenamento.

Estatísticas e manutenção de tabelas do Apache Iceberg: você pode automatizar a coleta de estatísticas em tabelas de data lake no Amazon S3 para acelerar a execução de consultas e a manutenção de tabelas do Apache Iceberg, como a compactação, para otimizar o layout de armazenamento das tabelas do Apache Iceberg. Você incorrerá em cobranças adicionais ao habilitar esses atributos. Para obter mais informações, acesse os preços do AWS Glue.

Permissões: o controle de permissões em nível granular é viabilizado pelo AWS Lake Formation e disponibilizado sem custos adicionais. Para obter mais detalhes, acesse os preços do Lake Formation.

Custos da Integração ETL zero

O SageMaker tem integrações ETL zero com aplicações, eliminando a necessidade de criar e gerenciar pipelines de extração, transformação e carregamento (ETL). As aplicações compatíveis incluem Salesforce, ServiceNow, Zendesk e muito mais.

Essas integrações oferecem flexibilidade para que você possa escolher tabelas de dados específicos em uma aplicação para replicar automaticamente para o Amazon Redshift. Essa flexibilidade permite que você execute um analytics unificado em várias aplicações e fontes de dados. A AWS não cobra uma taxa adicional pela Integração ETL zero. Você paga pelos recursos existentes usados para criar e processar os dados de alterações criados como parte de uma Integração ETL zero. Isso inclui armazenamento adicional do Amazon Redshift para armazenar dados replicados, recursos de computação para processar a replicação de dados (ou RPUs no Amazon Redshift sem servidor) e custos de transferência de dados em zonas de disponibilidade para mover dados da origem para o destino. O processamento contínuo de alterações de dados pela Integração ETL zero é oferecido sem custo adicional. Para obter mais informações, acesse Definição de preço do Amazon Aurora, Preço do Amazon RDS para MySQL, Preço do Amazon DynamoDB e AWS Glue pricing.