Passer au contenu principal

Fonctionnalités de l’architecture de lac de données

Sujets de la page

Généralités

Ouvrir tout

Les vues matérialisées sont des tables Apache Iceberg gérées dans le Catalogue de données AWS Glue et peuvent accélérer jusqu’à huit fois les requêtes Spark sur votre lac de données. Ces vues stockent les résultats précalculés des requêtes dans Iceberg et se mettent à jour automatiquement lorsque les données sous-jacentes changent, supprimant ainsi le besoin de créer et de gérer des pipelines de données complexes.

Le Catalogue de données AWS Glue prend en charge les vecteurs de suppression et la traçabilité des lignes tels que définis dans la spécification Apache Iceberg V3. Ces capacités d’Iceberg V3 permettent de créer des lacs de données à l’échelle du pétaoctet, offrant de meilleures performances pour les modifications de données et la possibilité de suivre les enregistrements modifiés.

Accédez aux tableaux Iceberg stockées dans Amazon S3 et enregistrées dans des catalogues distants directement depuis les moteurs d’analytique AWS, de manière sécurisée et rentable grâce à la fédération de catalogues dans le Catalogue de données AWS Glue.

Obtenez la flexibilité nécessaire pour accéder à vos données et interrogez-les sur place, grâce aux outils et moteurs compatibles avec Apache Iceberg de votre choix.

Exécutez des charges de travail d’analytique et de machine learning, notamment des tâches Apache Spark, des tableaux de bord SQL, des modèles ML et des applications d’IA générative, le tout sur une seule copie des données, en les stockant dans le format le mieux adapté à vos charges de travail.

Grâce à la compatibilité avec Apache Iceberg, toutes les données sont entièrement conformes à la norme ACID (Atomic, Consistent, Isolated, Durable) pour une analytique SQL haute performance.

Exécutez des requêtes fédérées sur les données stockées dans plusieurs sources tierces, comme Google BigQuery, SQL Server et Snowflake pour accéder à vos données et les interroger sur place.

Bénéficiez de la flexibilité d’un lac de données et des performances d’un entrepôt de données, sans modifier votre architecture de données existante. Accédez à un stockage Amazon Redshift hautement optimisé et à des structures de données secondaires, telles que des vues matérialisées, pour accélérer l’analytique SQL dans vos lacs de données.

Transférez les données de vos bases de données opérationnelles telles qu’Amazon DynamoDB, Amazon Aurora MySQL, Amazon Aurora PostgreSQL, Amazon RDS for MySQL et d’applications telles que Salesforce, ServiceNow et Zendesk vers le lakehouse en utilisant des intégrations zéro ETL pour une analytique en temps quasi réel.

Définissez des autorisations granulaires une seule fois et appliquez-les à toutes vos données dans tous les outils et moteurs d’analytique.

Avez-vous trouvé les informations que vous recherchiez ?

Faites-nous part de vos commentaires afin que nous puissions améliorer le contenu de nos pages