Tarification de Lakehouse
La prochaine génération d'Amazon SageMaker repose sur une architecture lakehouse ouverte qui unifie toutes vos données dans les lacs de données Amazon Simple Storage Service (Amazon S3), y compris les tables S3 et les entrepôts de données Amazon Redshift, vous permettant de créer de puissantes applications d'analytique et d'IA/ML sur une seule copie des données. Vous ne payez que pour les ressources que vous utilisez dans lakehouse. Le stockage des métadonnées et les requêtes d’API sont conformes à la tarification du Catalogue de données AWS Glue, y compris l’offre gratuite AWS. Les coûts de calcul et de stockage des données dépendent de votre choix entre Amazon S3 ou Amazon Redshift Managed Storage (RMS). La tarification des ressources sous-jacentes est décrite ci-dessous.
Métadonnées : les définitions de données sont organisées selon une hiérarchie logique de catalogues, de bases de données et de tables à l’aide du catalogue de données AWS Glue.
- Catalogue : un conteneur logique qui contient des objets provenant d’un magasin de données tels que des schémas, des tables, des vues ou des vues matérialisées d’Amazon Redshift. Vous pouvez imbriquer des catalogues sous un catalogue pour faire correspondre les niveaux de hiérarchies de la source de données que vous apportez à lakehouse.
- Base de données : les bases de données peuvent être utilisées pour organiser les objets de données tels que les tables et les vues de lakehouse.
- Tables et vues : les tables et les vues sont des objets de données d’une base de données qui décrivent comment accéder aux données sous-jacentes telles que le schéma, les partitions, l’emplacement de stockage, le format de stockage et les requêtes SQL pour accéder aux données.
Les métadonnées de lakehouse sont accessibles depuis les API AWS Glue. Pour le stockage des métadonnées et les demandes d’API, la tarification des métadonnées du catalogue de données AWS Glue s’applique, y compris l’offre gratuite AWS. Pour plus d’informations, consultez la page de tarification d’AWS Glue.
Stockage et accès aux données : lorsque vous accédez aux données depuis lakehouse, vous pouvez lire et écrire des données dans Amazon S3 ou RMS. Selon le type de stockage que vous choisissez pour stocker les données dans lakehouse, vous devrez supporter des coûts de stockage et de calcul supplémentaires pour accéder au stockage sous-jacent. Consultez la page de tarification d’AWS Glue pour en savoir plus sur la tarification du stockage et du calcul pour les types de stockage.
Statistiques et maintenance des tables Apache Iceberg : vous pouvez automatiser la collecte de statistiques sur les tables des lacs de données dans Amazon S3 pour accélérer l’exécution des requêtes et la maintenance des tables Apache Iceberg, comme le compactage, afin d’optimiser la disposition de stockage de vos tables Apache Iceberg. Des frais supplémentaires vous seront facturés lorsque vous activerez ces fonctionnalités. Pour plus d’informations, consultez la page de tarification d’AWS Glue.
Autorisations : les autorisations affinées sont gérées par AWS Lake Formation et sont fournies sans frais supplémentaires. Pour plus de détails, consultez la page de tarification de Lake Formation.
Coûts d’intégration zéro ETL
SageMaker dispose d’intégrations zéro ETL avec des applications, ce qui élimine le besoin de créer et de gérer des pipelines d’extraction, transformation et chargement (ETL). Les applications prises en charge incluent notamment Salesforce, ServiceNow et Zendesk.
Ces intégrations vous offrent de la flexibilité. Vous pouvez donc choisir des tables de données spécifiques dans une application à répliquer automatiquement sur Amazon Redshift. Cette flexibilité vous permet d’exécuter des fonctionnalités d’analytique unifiées sur plusieurs applications et sources de données. AWS ne facture aucuns frais supplémentaires pour l'intégration zéro ETL. Vous payez pour les ressources existantes utilisées pour créer et traiter les données de modification créées dans le cadre d’une intégration zéro ETL. Cela inclut le stockage Amazon Redshift supplémentaire pour le stockage des données répliquées, les ressources de calcul pour le traitement de la réplication des données (ou les RPU sur Amazon Redshift sans serveur) et les coûts de transfert de données entre plusieurs AZ pour le transfert de données de la source vers la cible. Le traitement continu des modifications de données par intégration zéro ETL est proposé sans frais supplémentaires. Pour plus d’informations, consultez les pages Tarification d’Amazon Aurora, Tarification d’Amazon Relational Database (Amazon RDS) pour MySQL, Tarification d’Amazon DynamoDB et Tarification d’AWS Glue.