Passer au contenu principal

Amazon S3

Tableaux Amazon S3

Optimisez les performances et les coûts des requêtes à mesure que votre lac de données évolue

Stockez des données tabulaires à grande échelle dans S3

Les tableaux Amazon S3 fournissent le premier magasin d’objets dans le cloud avec prise en charge intégrée d’Apache Iceberg et simplifient le stockage de données tabulaires à grande échelle. L’optimisation continue des tables analyse et réécrit automatiquement les données des tables en arrière-plan pour des performances de requête optimales, qui continueront à s’améliorer au fil du temps. Les tableaux S3 comprennent des optimisations spécifiques aux charges de travail Iceberg qui offrent jusqu’à 10 fois plus de transactions par seconde par rapport aux tables Iceberg stockées dans des compartiments S3 à usage général. De plus, grâce à la classe de stockage Intelligent-Tiering, les tableaux S3 optimisent automatiquement les coûts en fonction des modèles d’accès, sans impact sur les performances ni surcharge opérationnelle.

Grâce à la prise en charge des tableaux S3 pour la norme Apache Iceberg, vos données tabulaires peuvent être facilement interrogées par les principaux moteurs de requête AWS et tiers. Utilisez les tableaux S3 pour stocker des données tabulaires telles que les transactions d’achat quotidiennes, les données de capteurs de flux ou les impressions publicitaires sous forme de table Iceberg dans S3, et optimisez les performances et les coûts à mesure que vos données évoluent grâce à la maintenance automatique des tableaux. Lisez l’article de blog pour en savoir plus.

Avantages

Développez votre lac de données sans effort, de votre premier tableau à l’échelle de l’entreprise, en gérant des milliers de tables Iceberg sans vous soucier de l’infrastructure ou des frais de maintenance.

Bénéficiez de performances de requête plus rapides grâce à l’optimisation continue des tables, notamment le tri avancé et le compactage par z-order, par rapport aux tables Iceberg non gérées, et jusqu’à 10 fois plus de transactions par seconde par rapport aux tables Iceberg stockées dans des compartiments S3 à usage général. Utilisez la réplication de tableaux S3 pour réduire la latence des requêtes pour les équipes réparties géographiquement.

Automatisez les tâches de maintenance des tables, notamment le compactage, la gestion des instantanés et la suppression des fichiers non référencés, afin d’optimiser en permanence les performances et de réduire les coûts. Utilisez la classe de stockage Intelligent-Tiering pour optimiser davantage les coûts liés aux données activement interrogées. Bénéficiez d’une visibilité opérationnelle complète grâce à des métriques granulaires dans CloudWatch et à des journaux dans CloudTrail pour le stockage, les demandes et les opérations de maintenance.

Accédez aux fonctionnalités avancées d’analytique Iceberg et interrogez les données à l’aide de services AWS familiers tels qu’Amazon Athena, Redshift et EMR grâce à l’intégration des tableaux Amazon S3 à l’architecture lakehouse Amazon SageMaker. De plus, vous pouvez utiliser des applications tierces compatibles avec REST Iceberg, telles qu’Apache Spark, Apache Flink, Trino, DuckDB et PyIceberg, pour lire et écrire des données dans les tableaux S3.

Gérez les tables comme des ressources AWS de premier ordre grâce aux politiques de ressources IAM pour le contrôle d’accès au niveau des tables. Utilisez des balises pour le contrôle d’accès par attributs (ABAC) afin de rationaliser la gestion des autorisations à grande échelle. Sécurisez vos données grâce au chiffrement AWS KMS à l’aide de clés gérées par le client afin de garder le contrôle sur votre stratégie de chiffrement.

Fonctionnement

Les tableaux S3 fournissent un stockage S3 spécialement conçu pour stocker des données structurées au format Apache Iceberg. Au sein d’un compartiment de tableau, vous pouvez créer des tables en tant que ressources de premier ordre directement dans S3. Ces tables peuvent être sécurisées à l’aide d’autorisations au niveau de la table définies dans des politiques basées sur l’identité ou les ressources, et sont accessibles par les applications ou les outils prenant en charge la norme Apache Iceberg. Lorsque vous créez une table dans votre compartiment de tables, S3 conserve les métadonnées nécessaires pour que vos applications puissent interroger ces données. Les compartiments de tables comprennent un point de terminaison de catalogue REST Iceberg qui peut être utilisé par tous les moteurs de requête compatibles avec Iceberg pour découvrir, accéder et mettre à jour les métadonnées Iceberg des tables de votre compartiment de tables. Cela permet à plusieurs clients de lire et d’écrire en toute sécurité des données dans vos tables. Au fil du temps, S3 optimise automatiquement les données sous-jacentes en réécrivant ou en « compactant » vos objets. Le compactage optimise vos données sur S3 afin d’améliorer les performances des requêtes et de minimiser les coûts. De plus, l’expiration des instantanés et la suppression des fichiers non référencés optimisent les coûts de stockage à mesure que les données de vos tables vieillissent. Lisez le guide d’utilisation pour en savoir plus.

Clients

Genesys

Genesys est un leader mondial du cloud en matière d’orchestration d’expériences basée sur l’IA. Grâce à des fonctionnalités avancées d’IA, de numérique et de gestion de l’engagement du personnel, Genesys aide plus de 8 000 organisations dans plus de 100 pays à proposer des expériences personnalisées et empathiques à leurs clients et à leurs employés, tout en bénéficiant d’une agilité et de résultats commerciaux améliorés.

« Les tableaux Amazon S3 apporteront une touche de transformation à notre architecture de données, notamment grâce à sa prise en charge gérée d’Iceberg, qui crée efficacement une couche de vue matérialisée répondant à divers besoins d’analyse de données. Cette offre peut aider Genesys à simplifier les flux de données complexes en éliminant les couches supplémentaires de gestion des tables. S3 prend en charge automatiquement les tâches de maintenance clés telles que le compactage, la gestion des instantanés et le nettoyage des fichiers non référencés. La possibilité de lire et d’écrire des tables Iceberg directement depuis S3 nous aidera à améliorer les performances et à créer de nouvelles possibilités pour intégrer les données de manière fluide dans notre écosystème analytique. Cette interopérabilité, combinée à l’amélioration des performances, place les tableaux S3 au cœur de notre future stratégie visant à fournir des informations de données rapides, flexibles et fiables. »

Glenn Nethercutt, Chief Technology Officer chez Genesys

Missing alt text value

Indeed

Plus de personnes trouvent un emploi sur Indeed que partout ailleurs. Indeed est le site d’emploi n° 1 dans le monde (Comscore, nombre total de visites, mars 2025). Avec 635 millions de profils de demandeurs d’emploi, des personnes de plus de 60 pays et parlant 28 langues se rendent sur Indeed pour rechercher des emplois, publier leur CV et se renseigner sur les entreprises. Plus de 3,3 millions d’employeurs utilisent Indeed pour trouver et recruter de nouveaux employés. Indeed est une filiale de Recruit Holdings, un leader mondial dans le domaine des technologies RH et des solutions commerciales qui simplifie le recrutement et transforme le monde du travail.

« Chez Indeed, nous exploitons d’énormes quantités de données pour comprendre le marché de l’emploi et mettre en relation les personnes avec les opportunités qui leur conviennent. En migrant notre lac de données de 85 pétaoctets vers les tableaux S3, nous allons rationaliser notre infrastructure de données, réduire les coûts et réinvestir ces ressources dans ce qui compte le plus : nous concentrer sur notre mission qui consiste à aider les gens à trouver un emploi. »

Chris Voss, Director, Software Engineering chez Indeed

Missing alt text value

Zeta Global

Zeta Global est un cloud marketing basé sur l’IA qui exploite une intelligence artificielle avancée et des milliers de milliards de signaux consommateurs pour permettre aux spécialistes du marketing d’acquérir, de développer et de fidéliser plus facilement et plus efficacement leurs clients. Grâce à la plateforme marketing Zeta, Zeta simplifie le marketing sophistiqué en unifiant l’identité, l’intelligence et l’activation omnicanale au sein d’une plateforme unique, alimentée par l’une des plus grandes bases de données exclusives et l’IA du secteur.

« La plateforme marketing IA de Zeta Global s’appuie sur des données massives, en constante évolution et immédiatement exploitables. En utilisant les tableaux Amazon S3 comme fondement de notre lac de données de 10 pétaoctets, qui porte sur plus de 10 000 tables Apache Iceberg, nous avons réduit la latence de la fraîcheur des données de près de 80 %, ramenant le temps nécessaire à l’obtention d’informations de plus de 15 minutes à quelques minutes seulement. Ce niveau de réactivité renforce la capacité de Zeta à optimiser en temps réel l’audience, les enchères et la messagerie, et consolide notre leadership dans le domaine du marketing basé sur l’IA. »

Bharat Goyal, Executive Vice President, Head of Engineering chez Zeta Global

Missing alt text value

Pendulum

Pendulum est une plateforme d’intelligence de marque qui offre la couverture la plus complète au monde en matière de contenu vidéo, audio et textuel afin d’identifier de manière proactive les risques et les opportunités, permettant ainsi une meilleure prise de décision et l’analytique de suivi dans l’ensemble de l’entreprise.

Blog AWS Storage : How Pendulum achieves 6x faster processing and 40 % cost reduction with Amazon S3 Tables

« Chez Pendulum Intelligence, nous analysons les données provenant de centaines de millions de sources et de canaux sociaux. Les tableaux Amazon S3 ont transformé la façon dont nous gérons notre lac de données, qui traite des milliers d’heures de contenu vidéo et audio analysé tout en extrayant le contexte des images et d’autres médias en temps quasi réel à l’aide de nos outils de machine learning propriétaires. En éliminant la charge liée à la gestion des tables, y compris le compactage, les instantanés et le nettoyage des fichiers, notre équipe peut se concentrer sur ce qui compte le plus : tirer des informations exploitables à partir de grands jeux de données. L’intégration fluide avec notre pile d’analytique (Amazon Athena, AWS Glue et Amazon EMR) a considérablement amélioré notre capacité à traiter des données complexes à grande échelle. »

Abdurrahman Elbuni, Cloud Big Data Architect, Pendulum

Missing alt text value

SnapLogic

SnapLogic est un pionnier de l’intégration pilotée par l’IA. La plateforme SnapLogic pour l’intégration générative accélère la transformation numérique au sein de l’entreprise pour concevoir, déployer et gérer des agents d’IA et une intégration qui automatisent les tâches, prennent des décisions en temps réel et s’intègrent sans effort aux flux de travail existants.

« Les tableaux Amazon S3, avec la prise en charge intégrée d’Apache Iceberg et l’intégration des services d’analytique AWS, aident les entreprises à optimiser leurs coûts d’analytique des données tout en transformant la façon dont elles utilisent les données d’entreprise pour les initiatives d’analytiques, de conformité et d’IA. En automatisant les tâches complexes de gestion des données et en fournissant des pistes d’audit complètes des modifications apportées aux données, les équipes peuvent analyser instantanément les données historiques, maintenir la conformité réglementaire et accélérer les informations commerciales tout en réduisant considérablement leurs coûts technologiques. »

Dominic Wellington, Enterprise Architect chez SnapLogic

Missing alt text value

Zus Health

Zus est une plateforme de données de santé partagée conçue pour accélérer l’interopérabilité des données de santé en fournissant des données sur les patients faciles à utiliser via une API, des composants intégrés et des intégrations directes des dossiers médicaux électroniques.

« En tant qu’entreprise du secteur de la santé traitant des quantités massives de données de patients changeant fréquemment, nous avons décidé d’investir dans Apache Iceberg parce qu’il résout de nombreux problèmes avec Apache Hive en matière de partitionnement et d’automatisation, avec l’avantage supplémentaire d’une plus grande interopérabilité. L’un de nos plus grands défis avec Iceberg a été de comprendre et de gérer l’optimisation des tables. C’est pourquoi nous sommes enthousiasmés par les tableaux S3 et les capacités d’optimisation gérées. Le fait de pouvoir décharger les développeurs de la maintenance des tables nous permettra de nous concentrer davantage sur la fourniture de données de haute qualité et d’informations précieuses à nos clients. »

Sonya Huang, Consulting Software Engineer chez Zus Health

Missing alt text value

Partenaires et intégrations

Daft

Daft est un moteur unifié pour l’ingénierie des données, l’analytique et le ML/l’IA, exposant à la fois les interfaces SQL et Python DataFrame comme des objets de première classe. Il est écrit en Rust. Daft propose une expérience interactive locale rapide et agréable, tout en s’adaptant parfaitement à des charges de travail distribuées de l’ordre du pétaoctet.

« Les tableaux Amazon S3 sont le complément parfait à la prise en charge d’Apache Iceberg par Daft. En tirant parti de ses intégrations avec AWS Lake Formation et AWS Glue, nous avons pu étendre sans effort nos fonctionnalités de lecture et d’écriture Iceberg existantes aux tableaux S3 tout en tirant parti de ses performances optimisées. Nous attendons avec impatience l’évolution de ce nouveau service et sommes ravis de fournir la meilleure prise en charge des tableaux S3 pour l’écosystème Python Data Engineering et ML/IA. »

Sammy Sidhu, PDG et cofondateur, Daft

Missing alt text value

Dremio

Dremio est la plateforme intelligente Lakehouse qui accélère l’IA et l’analytique en proposant un moteur SQL leader du marché, un catalogue de données ouvert et interopérable et une plateforme sécurisée, évolutive et simple à utiliser. Notre leadership au sein des communautés Apache Iceberg, Apache Polaris (en incubation) et Apache Arrow permet aux organisations de créer des architectures Lakehouse entièrement ouvertes et performantes tout en conservant flexibilité et contrôle, éliminant ainsi la dépendance à l’égard d’un fournisseur.

« Dremio a le plaisir de soutenir la disponibilité générale des tableaux Amazon S3. En prenant en charge la spécification Apache Iceberg REST Catalog (IRC), les tableaux S3 garantissent une interopérabilité fluide avec Dremio, permettant aux utilisateurs de bénéficier d’un moteur SQL performant capable d’interroger des tables Apache Iceberg gérées dans des compartiments de tableaux S3 optimisés. Cette collaboration renforce l’importance des normes ouvertes dans l’écosystème des lacs, en éliminant la complexité de l’intégration et en accélérant l’adoption par les clients. Grâce aux tableaux Amazon S3 et au support IRC, les entreprises bénéficient de la flexibilité et du choix nécessaires pour créer une architecture Lakehouse unifiée à l’ère de l’IA. »

James Rowland-Jones, VP, Product, Dremio

Missing alt text value

DuckDB Labs

DuckDB Labs est la société fondée par les créateurs de DuckDB, un outil universel de gestion des données très répandu. La société emploie les principaux contributeurs au système DuckDB. DuckDB est un logiciel libre et open source sous licence MIT et est régi par la fondation indépendante à but non lucratif DuckDB. Le projet DuckDB met le traitement analytique rapide à la disposition d’un large public grâce à sa facilité d’utilisation et à sa portabilité.

Blog AWS Storage : rationalisation de l’accès aux jeux de données tabulaires stockés dans des tableaux Amazon S3 avec DuckDB

« Les tableaux Amazon S3 s’inscrivent parfaitement dans la vision de DuckDB visant à démocratiser l’analytique des données à l’aide de formats de fichiers ouverts. La collaboration entre AWS et DuckDB Labs nous permet d’étendre encore la prise en charge d’Iceberg dans DuckDB et de développer une intégration fluide avec les tableaux S3. Nous pensons que la logique de batteries partagées de DuckDB et des tableaux S3 se combine en une pile analytique puissante qui peut gérer un large éventail de charges de travail tout en maintenant une barrière d’entrée incroyablement faible. »

Hannes Mühleisen, Chief Executive Officer chez DuckDB Labs

Missing alt text value

HighByte

HighByte est une société de logiciels industriels qui répond aux défis d’architecture et d’intégration des données auxquels sont confrontés les fabricants mondiaux dans le cadre de leur transformation numérique. HighByte Intelligence Hub, le logiciel Industrial DataOps éprouvé de la société, fournit des données modélisées et prêtes à l’emploi aux services Cloud AWS à l’aide d’une interface sans code pour accélérer le temps d’intégration et l’analytique.

« Les tableaux Amazon S3 sont une nouvelle fonctionnalité puissante qui optimise la gestion, les performances et le stockage des données tabulaires pour les charges de travail analytiques. L’intégration directe de HighByte Intelligence Hub aux tableaux Amazon S3 permet aux fabricants mondiaux de créer facilement un lac de données transactionnel ouvert pour leurs données industrielles. Les tableaux S3 permettent d’interroger instantanément les données brutes Parquet, ce qui permet aux clients d’envoyer des informations contextualisées de la périphérie vers le cloud pour une utilisation immédiate sans traitement ni transformation supplémentaire. Cela a un impact majeur sur les performances et l’optimisation des coûts pour nos clients communs. »

Aron Semle, Chief Technology Officer chez HighByte

HighByte logo. All rights reserved.

PuppyGraph

PuppyGraph est le premier moteur de requête orientée graphes en temps réel et sans extraction, transformation ni chargement (sans ETL), qui permet aux équipes chargées des données d’interroger un lakehouse existant sous forme de graphe en quelques minutes, sans migration ni maintenance coûteuses. Il s’adapte à des jeux de données de la taille de plusieurs pétaoctets et exécute des requêtes complexes à sauts multiples en quelques secondes, ce qui permet de répondre à des cas d’utilisation allant de la détection des fraudes à la cybersécurité, en passant par les informations basées sur l’IA.

Blog AWS Storage : Faster threat detection at scale: Real-time cybersecurity graph analytics with PuppyGraph and tableau Amazon S3

« Amazon S3 constitue depuis longtemps la base de l’infrastructure de données moderne, et le lancement des tableaux S3 marque une étape importante : Apache Iceberg est sur le point de devenir la norme universelle en matière de données et d’IA. Cette innovation permet aux entreprises de tirer parti de formats de table ouverts performants sur S3, permettant ainsi une analytique multimoteur sans duplication des données. Pour les clients de PuppyGraph, cela signifie qu’ils peuvent désormais exécuter des requêtes orientées graphes en temps réel directement sur leurs données S3, en conservant des informations actualisées et évolutives sans les frais liés à un processus ETL complexe. Nous sommes ravis de participer à cette évolution, en rendant l’analytique de graphes aussi fluide que les données elles-mêmes. »

Weimo Liu, cofondateur et PDG, PuppyGraph

Missing alt text value

RisingWave

Fondée en 2021 à San Francisco, RisingWave Labs développe RisingWave, une base de données SQL native cloud qui simplifie le traitement des données en temps réel. La technologie de l’entreprise combine la compatibilité PostgreSQL avec une architecture de streaming moderne, proposée à la fois comme solution open source et comme RisingWave Cloud, une plateforme entièrement gérée.

« L’intégration de RisingWave avec les tableaux Amazon S3 permet aux organisations d’exploiter de manière transparente les tables Apache Iceberg dans Amazon S3, améliorant ainsi leurs capacités de pipeline de données en streaming. Que vous ingériez des données brutes, les transformiez en temps réel ou réinscriviez les résultats dans S3, RisingWave facilite l’utilisation des tables Iceberg comme une extension naturelle de votre flux de travail. Cette intégration simplifie la gestion des données, réduit la complexité opérationnelle et permet une interopérabilité fluide pour les équipes travaillant avec l’analyse en streaming. »

Rayees Pasha, CPO chez RisingWave Labs

Missing alt text value

Snowflake

Snowflake rend l’IA d’entreprise facile, connectée et fiable. Des milliers d’entreprises du monde entier, dont des centaines des plus grandes du monde, utilisent le cloud de données IA de Snowflake pour partager des données, créer des applications et dynamiser leur activité grâce à l’IA.

Blog AWS Storage : Connect Snowflake to S3 Tables using the SageMaker Lakehouse Iceberg REST endpoint 

« Nous sommes ravis d’apporter la magie de Snowflake aux tableaux Amazon S3. Cette collaboration permet aux clients de Snowflake de lire et de traiter de manière fluide les données stockées dans les tableaux S3 en utilisant leurs configurations Snowflake existantes, éliminant ainsi le besoin de migrations ou de duplications de données complexes. En combinant les capacités d’analytique des performances de pointe de Snowflake avec le stockage efficace des tables Apache Iceberg par les tableaux Amazon S3, les organisations peuvent facilement interroger et analyser les données tabulaires stockées dans Amazon S3. »

Rithesh Makkena, Global Director of Partner Solutions Engineering chez Snowflake

Missing alt text value

Starburst

Starburst alimente l’architecture de données de base requise par les applications d’analytique, d’IA et de données. Elle utilise un environnement de lac de données hybride alimenté par Apache Iceberg pour fournir un accès, une collaboration et une gouvernance à grande échelle.

Blog AWS Storage : Build a managed Apache Iceberg data lake using Starburst and Amazon S3 Tables 

« Nous sommes ravis de voir Amazon S3 introduire la prise en charge intégrée d’Apache Iceberg avec les tableaux S3, faisant ainsi progresser l’écosystème Iceberg Open Data Lakehouse. Avec les compartiments de tableaux S3, nous sommes impatients de collaborer avec AWS pour aider nos clients communs à tirer parti de la puissance d’un Open Lakehouse, alimenté par Trino optimisé, un moteur MPP SQL open source de premier plan, à travers divers cas d’utilisation de l’analytique et de l’IA aux données d’Amazon S3. »

Matt Fuller, Vice President, Product, Starburst

Missing alt text value

StreamNative

StreamNative est une plateforme de messagerie et de diffusion qui optimise l’IA et l’analytique grâce à une ingestion de données rentable et performante. Le moteur StreamNative Ursa permet aux entreprises de réduire le coût total de possession (TCO) de 90 % grâce à la compatibilité avec Kafka, à une architecture sans leader et à un stockage natif Lakehouse, rendant ainsi les données prêtes pour l’IA accessibles à grande échelle.

Blog AWS Storage : diffusion fluide vers des tableaux Amazon S3 grâce au moteur StreamNative Ursa

« Notre intégration avec les tableaux Amazon S3 rend les données en temps réel, prêtes pour l’IA, plus ouvertes et accessibles que jamais. L’architecture leader d’Ursa sur S3 réduit déjà les coûts de stockage, et l’intégration directe avec les tableaux S3 améliore encore les performances et l’efficacité. Dans un monde piloté par l’IA, la gouvernance des données est cruciale. Chez StreamNative, nous nous engageons à aider les entreprises à réduire leur coût total de possession de 90 % tout en leur permettant de créer facilement et à moindre coût des applications basées sur l’IA avec des données gouvernées en temps réel. »

Sijie Guo, PDG et cofondateur, StreamNative

Missing alt text value

Démonstration des tableaux S3

Regardez cette vidéo pour en savoir plus sur la façon dont les tableaux S3 améliorent les performances de votre lac de données, simplifient les contrôles de sécurité et gèrent automatiquement les coûts au fur et à mesure de votre évolution. Le segment explore l’architecture des tableaux S3, qui améliore fondamentalement les performances des charges de travail des lacs de données, et les versions récentes.