Sujets de la page
- Questions fréquentes (FAQ) d’ordre général sur S3
20
- Régions AWS
6
- Facturation
10
- S3 Tables
18
- Vecteurs S3
12
- Amazon S3 et IPv6
4
- Notifications d’événements S3
5
- Amazon S3 Transfer Acceleration
12
- Sécurité
14
- S3 Access Grants
19
- Points d’accès S3
13
- Durabilité et protection des données
23
- Classes de stockage
2
- S3 Intelligent-Tiering
15
- S3 Standard
2
- S3 Express One Zone
16
- S3 Standard-Infrequent Access (S3 Standard-IA)
8
- S3 One Zone-Infrequent Access (S3 One Zone-IA)
6
- Classe de stockage Amazon S3 Glacier Instant Retrieval
8
- Classe de stockage Amazon S3 Glacier Flexible Retrieval
10
- Amazon S3 Glacier Deep Archive
10
- S3 sur Outposts
1
- Gestion du stockage
46
- Analyses et informations sur le stockage
12
- Exécution de requêtes sur place
4
- Réplication
32
- Traitement des données
9
- Accès aux données
20
- Storage Browser pour Amazon S3
9
Questions fréquentes (FAQ) d’ordre général sur S3
Ouvrir toutUn compartiment de table est spécialement conçu pour stocker des tables au format Apache Iceberg. Utilisez Amazon S3 Tables pour créer des compartiments de tables et configurer des autorisations au niveau des tables en quelques étapes seulement. Les compartiments de tables S3 sont spécifiquement optimisés pour les charges de travail d’analytique et de machine learning. Grâce à la prise en charge intégrée d’Apache Iceberg, vous pouvez interroger des données tabulaires dans S3 à l’aide de moteurs de requêtes courants tels qu’Amazon Athena, Amazon Redshift et Apache Spark. Utilisez les compartiments de tables S3 pour stocker des données tabulaires telles que les transactions d’achat quotidiennes, les données des capteurs de streaming ou les impressions d’annonces sous forme de table Iceberg dans Amazon S3, puis interagissez avec ces données à l’aide de fonctionnalités d’analytique.
Un compartiment vectoriel est spécialement conçu pour stocker et interroger des vecteurs. Dans un compartiment vectoriel, vous n’utilisez pas les API d’objets S3, mais plutôt des API vectorielles dédiées pour écrire des données vectorielles et les interroger en fonction de leur signification sémantique et de leur similitude. Vous pouvez contrôler l’accès à vos données vectorielles avec des mécanismes de contrôle d’accès existants dans Amazon S3, notamment des politiques de compartiment et IAM. Toutes les écritures dans un compartiment vectoriel sont parfaitement cohérentes, ce qui signifie que vous pouvez accéder immédiatement aux derniers vecteurs ajoutés. Au fur et à mesure que vous écrivez, mettez à jour et supprimez des vecteurs au fil du temps, les compartiments vectoriels S3 optimisent automatiquement les données vectorielles qui y sont stockées afin d’obtenir un rapport prix-performance optimal, même lorsque les jeux de données sont mis à l’échelle et évoluent.
Un compartiment est un conteneur pour les objets et les tables stockés dans Amazon S3, et vous pouvez stocker autant d’objets que vous le souhaitez dans un compartiment. Les compartiments à usage général sont le type de compartiment S3 d’origine, et un seul compartiment à usage général peut contenir des objets stockés dans toutes les classes de stockage, à l’exception de S3 Express One Zone. Ils sont recommandés pour la plupart des cas d'utilisation et des modèles d'accès. Les compartiments de répertoires S3 autorisent uniquement les objets stockés dans la classe de stockage S3 Express One Zone, ce qui permet un traitement plus rapide des données au sein d'une seule zone de disponibilité. Ils sont recommandés pour les cas d’utilisation à faible latence. Chaque compartiment de répertoires S3 peut prendre en charge jusqu’à 2 millions de transactions par seconde (TPS), quel que soit le nombre de répertoires qu’il contient. Les compartiments de tables S3 sont spécialement conçus pour stocker des données tabulaires dans S3, telles que les transactions d’achat quotidiennes, le streaming de données de capteurs ou les impressions publicitaires. Lorsque vous utilisez un compartiment de tables, vos données sont stockées sous forme de table Iceberg dans S3, puis vous pouvez interagir avec ces données à l’aide de fonctionnalités d’analytique telles que des transactions au niveau des lignes, des instantanés de table interrogeables, etc., le tout géré par S3. De plus, les compartiments de tableaux assurent une maintenance continue des tableaux afin d’optimiser automatiquement l’efficacité des requêtes au fil du temps, même à mesure que le lac de données se met à l’échelle. Les compartiments vectoriels S3 sont spécialement conçus pour stocker et interroger des vecteurs. Dans un compartiment vectoriel, vous utilisez des API vectorielles dédiées pour écrire des données vectorielles et les interroger en fonction de leur signification sémantique et de leur similitude. Vous pouvez contrôler l’accès à vos données vectorielles à l’aide des mécanismes de contrôle d’accès existants dans Amazon S3, notamment des politiques de compartiment et IAM. Au fur et à mesure que vous écrivez, mettez à jour et supprimez des vecteurs au fil du temps, les compartiments vectoriels S3 optimisent automatiquement les données vectorielles qui y sont stockées afin d’obtenir un rapport prix-performance optimal, même lorsque les jeux de données sont mis à l’échelle et évoluent.
Régions AWS
Ouvrir toutLa classe de stockage Amazon S3 Unizone-IA réplique les données dans une seule zone de disponibilité. Les données stockées dans S3 Unizone-IA ne résistent pas à la perte physique d’une zone de disponibilité liée à des catastrophes comme des tremblements de terre, des incendies et des inondations.
Facturation
Ouvrir tout2) Jour 16 du mois : vous effectuez une opération PUT de 5 Go (5 368 709 120 octets) dans le même compartiment en utilisant la même clé que l’opération PUT d’origine du Jour 1.
Lorsque les coûts de stockage des opérations ci-dessus sont analysés, notez que l'objet de 4 Go du Jour 1 n'est pas supprimé du compartiment lorsque l'objet de 5 Go est écrit le Jour 15. L’objet de 4 Go est plutôt préservé en tant qu’ancienne version et l’objet de 5 Go devient la version la plus récemment écrite de l’objet au sein de votre compartiment. À la fin du mois : utilisation totale (en octets-heure)
[4 294 967 296 octets x 31 jours x (24 heures/jour)] + [5 368 709 120 octets x 16 jours x (24 heures/jour)] = 5 257 039 970 304 octets-heure. Conversion en Go total-mois
5 257 039 970 304 octets/heure x (1 Go / 1 073 741 824 octets) x (1 mois / 744 heures) = 6 581 Go/mois Le coût est calculé sur la base des tarifs en vigueur pour votre région indiqués sur la page de tarification Amazon S3.
S3 Tables
Ouvrir toutS3 Tables fournit un stockage S3 spécialement créé pour stocker des données structurées au format Apache Parquet, Avro et ORC. Dans un compartiment de tables, vous pouvez créer des tables en tant que ressources de première classe directement dans S3. Ces tables peuvent être sécurisées par des autorisations au niveau de la table définie dans des politiques basées sur l’identité ou les ressources et sont accessibles par des applications ou des outils qui prennent en charge la norme Apache Iceberg. Lorsque vous créez une table dans votre compartiment de tables, les données sous-jacentes dans S3 sont stockées sous forme de données Parquet, Avro ou ORC. S3 utilise ensuite la norme Apache Iceberg pour stocker les métadonnées nécessaires pour que ces données puissent être interrogées par vos applications. S3 Tables inclut une bibliothèque client qui est utilisée par les moteurs de requête pour naviguer et mettre à jour les métadonnées Iceberg des tables de votre compartiment de tables. Cette bibliothèque, associée aux API S3 mises à jour pour les opérations sur les tables, permet à plusieurs clients de lire et d’écrire en toute sécurité des données dans vos tables. Au fil du temps, S3 optimise automatiquement les données Parquet, Avro ou ORC sous-jacentes en réécrivant ou en « compactant » vos objets. Le compactage optimise vos données sur S3 afin d’améliorer les performances des requêtes et de minimiser les coûts.
Vous pouvez commencer à utiliser S3 Tables en quelques étapes simples, sans avoir à installer d’infrastructure en dehors de S3. Tout d’abord, créez un compartiment de tables dans la console S3. Lors de la création de votre premier compartiment de tables via la console, l’intégration aux services d’analytique AWS se fait automatiquement, ce qui permet à S3 de renseigner automatiquement tous les compartiments de tables et les tableaux de votre compte et de votre région dans le Catalogue de données AWS Glue. Par la suite, S3 Tables est désormais accessible aux moteurs de requêtes AWS tels qu’Amazon Athena, EMR et Redshift. Vous pouvez ensuite cliquer pour créer un tableau à l’aide d’Amazon Athena depuis la console S3. Une fois dans Athena, vous pouvez rapidement commencer à remplir de nouvelles tables et à les interroger.
Vous pouvez également accéder à S3 Tables à l’aide du point de terminaison du catalogue REST Iceberg via le Catalogue de données AWS Glue, qui vous permet de découvrir l’intégralité de votre patrimoine de données, y compris toutes les ressources des tables. Vous pouvez également vous connecter directement à un point de terminaison de compartiment de tables individuel pour découvrir toutes les ressources S3 Tables de ce compartiment. Cela vous permet d’utiliser S3 Tables avec n’importe quelle application ou n’importe quel moteur de requête prenant en charge la spécification du catalogue REST Apache Iceberg.
Vous pouvez vous attendre à des performances de requête jusqu’à trois fois plus rapides et à des transactions par seconde (TPS) jusqu’à dix fois plus élevées par rapport au stockage de tables Iceberg dans des compartiments Amazon S3 à usage général. En effet, les compartiments de tables compactent automatiquement les données Parquet Avro ou ORC sous-jacentes de vos tables afin d’optimiser les performances des requêtes, et le stockage spécialement conçu prend en charge jusqu’à dix fois le TPS par défaut.
Les compartiments de tables vous permettent d’appliquer des politiques de ressources à l’ensemble du compartiment ou à des tables individuelles. Les politiques relatives aux compartiments de tables peuvent être appliquées à l’aide des API PutTablePolicy et PutTableBucketPolicy. Les politiques au niveau des tables vous permettent de gérer les autorisations relatives aux tables de vos compartiments de tables en fonction de la table logique à laquelle elles sont associées, sans avoir à connaître l’emplacement physique des fichiers Parquet, Avro ou ORC individuels. De plus, l’accès public par bloc S3 est toujours appliqué à vos compartiments de tables.
Les compartiments de tables prennent en charge le format de table Apache Iceberg avec les données Parquet, Avro ou ORC.
Vecteurs S3
Ouvrir toutVous pouvez commencer à utiliser S3 Vectors en quatre étapes simples, sans avoir à configurer d’infrastructure en dehors d’Amazon S3. Tout d’abord, créez un compartiment vectoriel dans une Région AWS spécifique via l’API CreateVectorBucket ou dans la console S3. Ensuite, pour organiser vos données vectorielles dans un compartiment vectoriel, vous devez créer un index vectoriel à l’aide de l’API CreateIndex ou de la console S3. Lorsque vous créez un index vectoriel, vous spécifiez la métrique de distance (cosinus ou euclidienne) et le nombre de dimensions qu’un vecteur doit avoir (jusqu’à 4 092). Pour des résultats plus précis, sélectionnez la métrique de distance recommandée par votre modèle de vectorisation. Troisièmement, ajoutez des données vectorielles à un index vectoriel à l’aide de l’API PutVectors. Vous pouvez éventuellement joindre des métadonnées sous forme de paires clé-valeur à chaque vecteur pour filtrer les requêtes. Quatrièmement, effectuez une requête de similarité à l’aide de l’API QueryVectors, en spécifiant le vecteur à rechercher et le nombre de résultats les plus similaires à renvoyer.
Vous pouvez créer un index vectoriel à l’aide de la console S3 ou de l’API CreateIndex. Lors de la création de l’index, vous spécifiez le compartiment vectoriel, l’index, la métrique de distance, les dimensions et, éventuellement, une liste de champs de métadonnées que vous souhaitez exclure du filtrage lors des requêtes de similarité. Par exemple, si vous souhaitez stocker des données associées à des vecteurs uniquement à titre de référence, vous pouvez les spécifier en tant que champs de métadonnées non filtrables. Lors de la création, chaque index se voit attribuer un Amazon Resource Name (ARN). Par la suite, lorsque vous faites une demande d’écriture ou de requête, vous la dirigez vers un index vectoriel au sein d’un compartiment vectoriel.
Vous pouvez ajouter des vecteurs à un index vectoriel à l’aide de l’API PutVectors. Chaque vecteur est constitué d’une clé qui identifie de manière unique chaque vecteur dans un index vectoriel (par exemple, vous pouvez générer un UUID par programmation). Pour optimiser le débit d’écriture, il est recommandé d’insérer des vecteurs par lots volumineux, jusqu’à la taille de requête maximale. En outre, vous pouvez joindre des métadonnées (par exemple, l’année, l’auteur, le genre et le lieu) sous forme de paires clé-valeur à chaque vecteur. Lorsque vous incluez des métadonnées, par défaut, tous les champs peuvent être utilisés comme filtres dans une requête de similarité, sauf s’ils sont spécifiés comme métadonnées non filtrables au moment de la création de l’index vectoriel. Pour générer de nouvelles vectorisations vectorielles de vos données non structurées, vous pouvez utiliser l’API InvokeModel d’Amazon Bedrock, en spécifiant l’ID du modèle de vectorisation que vous souhaitez utiliser.
Vous pouvez utiliser l’API GetVectors pour rechercher et renvoyer des vecteurs et les métadonnées associées à l’aide de la clé vectorielle.
Vous pouvez exécuter une requête de similarité à l’aide de l’API QueryVectors, en spécifiant le vecteur de requête, le nombre de résultats pertinents à renvoyer (les k premiers voisins les plus proches) et l’ARN de l’index. Lors de la génération du vecteur de requête, vous devez utiliser le même modèle de vectorisation que celui utilisé pour générer les vecteurs initiaux stockés dans l’index vectoriel. Par exemple, si vous utilisez le plongement lexical Amazon Titan v2 dans Amazon Bedrock pour générer des vectorisations de vos documents, il est recommandé d’utiliser le même modèle pour convertir une question en vecteur. En outre, vous pouvez utiliser des filtres de métadonnées dans une requête pour rechercher des vecteurs correspondant au filtre. Lorsque vous exécutez la requête de similarité, les clés vectorielles sont renvoyées par défaut. Vous pouvez éventuellement inclure la distance et les métadonnées dans la réponse.
S3 Vectors offre un stockage vectoriel hautement durable et disponible. Les données écrites dans S3 Vectors sont stockées sur S3, qui est conçu pour une durabilité des données de 11 à 9 s. S3 Vectors est conçu pour fournir une disponibilité de 99,99 % avec un SLA de disponibilité de 99,9 %.
S3 Vectors offre des temps de latence des requêtes inférieurs à la seconde. Il utilise le débit élastique d’Amazon S3 pour gérer les recherches sur des millions de vecteurs et est idéal pour les charges de travail de requêtes peu fréquentes.
Lorsque vous effectuez des requêtes de similarité pour vos vectorisations vectorielles, plusieurs facteurs peuvent affecter le rappel moyen, notamment le modèle de vectorisation, la taille du jeu de données vectoriel (nombre de vecteurs et dimensions) et la distribution des requêtes. S3 Vectors offre un rappel moyen de plus de 90 % pour la plupart des jeux de données. Le rappel moyen mesure la qualité des résultats de la requête : 90 % signifie que la réponse contient 90 % des vecteurs les plus proches du vecteur de requête, qui sont stockés dans l’index. Cependant, étant donné que les performances réelles peuvent varier en fonction de votre cas d’utilisation spécifique, nous vous recommandons d’effectuer vos propres tests avec des données représentatives et des requêtes afin de valider que les index S3 Vectors répondent à vos exigences de rappel.
Vous pouvez consulter une liste de vecteurs dans un index vectoriel à l’aide de l’API ListVectors, qui renvoie jusqu’à 1 000 vecteurs à la fois avec un indicateur si la réponse est tronquée. La réponse inclut la date de dernière modification, la clé vectorielle, les données vectorielles et les métadonnées. Vous pouvez également utiliser l’API ListVectors pour exporter facilement des données vectorielles à partir d’un index vectoriel spécifié. L’opération ListVectors est très cohérente. Ainsi, après une écriture, vous pouvez immédiatement répertorier les vecteurs avec toutes les modifications prises en compte.
Avec S3 Vectors, vous payez pour le stockage et toutes les demandes d’écriture et de lecture applicables (par exemple, l’insertion de vecteurs et l’exécution d’opérations de requête sur des vecteurs dans un index vectoriel). Pour voir le détail des prix, consultez la page de tarification S3.
Oui. Lors de la création d’une base de connaissances Bedrock via la console ou l’API Bedrock, vous pouvez configurer un index vectoriel S3 existant comme boutique vectorielle afin de réduire les coûts de stockage vectoriel pour les cas d’utilisation RAG. Si vous préférez laisser Bedrock créer et gérer l’index vectoriel pour vous, utilisez le flux de travail Création rapide dans la console Bedrock. En outre, vous pouvez configurer un nouvel index vectoriel S3 comme boutique vectorielle pour les flux de travail RAG dans Amazon SageMaker Unified Studio.
Oui. Vous pouvez utiliser S3 Vectors de deux manières avec Amazon OpenSearch Service. Tout d’abord, les clients S3 peuvent exporter tous les vecteurs d’un index vectoriel S3 vers OpenSearch sans serveur en tant que nouvelle collection sans serveur à l’aide de la console S3 ou OpenSearch. Si vous créez nativement sur des S3 Vectors, vous avez la possibilité d’utiliser OpenSearch sans serveur de manière sélective pour les charges de travail nécessitant des requêtes en temps réel. Deuxièmement, si vous êtes un client OpenSearch géré, vous pouvez désormais choisir S3 Vectors comme moteur pour les données vectorielles qui peuvent être interrogées avec une latence inférieure à la seconde. OpenSearch utilisera alors automatiquement S3 Vectors comme moteur sous-jacent pour les vecteurs et vous pourrez mettre à jour et rechercher vos données vectorielles à l’aide des API OpenSearch. Vous bénéficiez des avantages de S3 Vectors en termes de coûts, sans apporter la moindre modification à vos applications.
Amazon S3 et IPv6
Ouvrir toutNotifications d’événements S3
Ouvrir toutAmazon S3 Transfer Acceleration
Ouvrir toutPour en savoir plus sur l’implémentation AWS, visitez cette section Fichier des FAQ sur Storage Gateway.
Sécurité
Ouvrir toutPour en savoir plus sur la sécurité dans AWS, reportez-vous à la page de sécurité AWS. Pour des informations sur la sécurité relative à S3, visitez la page de sécurité de S3 et le guide des bonnes pratiques de sécurité de S3.
Par défaut, les données et les métadonnées de l’objet restent dans la seule zone locale dédiée dans laquelle vous avez placé l’objet. Les données de gestion et de télémétrie des compartiments, y compris les noms des compartiments, les métriques de capacité, les journaux CloudTrail, les métriques CloudWatch, les clés gérées par le client via AWS Key Management Service (KMS) et les politiques de gestion des identités et des accès (IAM), sont stockées dans la Région AWS parente. En option, d’autres fonctionnalités de gestion des compartiments, telles que S3 Batch Operations, stockent les métadonnées de gestion avec le nom du compartiment et le nom de l’objet dans la Région AWS parente.
Vous pouvez créer un point de terminaison d’un VPC d’interface à l’aide de la console AWS, de l’interface de la ligne de commande AWS (AWS CLI), du kit SDK AWS ou de l’API. Pour en savoir plus, référez-vous à la documentation.
Pour en savoir plus, reportez-vous à la documentation IAM Access Analyzer.
S3 Access Grants
Ouvrir toutPoints d’accès S3
Ouvrir toutLes points d’accès Amazon S3 simplifient la gestion de l’accès aux données pour toute application ou tout service AWS fonctionnant avec S3. Les points d’accès S3 fonctionnent avec les compartiments S3 et les systèmes de fichiers Amazon FSx pour OpenZFS. Vous pouvez contrôler et simplifier la manière dont les différentes applications ou les différents utilisateurs peuvent accéder aux données en créant des points d’accès dotés de noms et d’autorisations adaptés à chaque application ou utilisateur.
Grâce aux point d’accès S3 avec compartiments S3, vous ne devez plus gérer une stratégie de compartiment unique et complexe avec des centaines de règles d’autorisation différentes qu’il faut écrire, lire, suivre et auditer. Au lieu de cela, vous pouvez créer des centaines de points d’accès par compartiment, chacun proposant un chemin personnalisé vers un compartiment, avec un nom d’hôte unique et une stratégie d’accès qui met en œuvre les autorisations spécifiques et les contrôles de réseau pour toute demande effectuée par le point d’accès.
En utilisant les points d’accès S3 avec FSx pour OpenZFS, vous pouvez accéder à vos données FSx à l’aide de l’API S3 comme si les données se trouvaient dans S3. Grâce à cette fonctionnalité, les données de vos fichiers dans FSx pour OpenZFS sont accessibles et peuvent être utilisées avec le large éventail de services et d’applications d’intelligence artificielle, de machine learning et d’analytique qui fonctionnent avec S3, tandis que vos données de fichiers continuent de résider sur le système de fichiers FSx pour OpenZFS.
Avec les points d’accès S3, vous pouvez accéder aux données des fichiers dans Amazon FSx pour OpenZFS à l’aide des API S3 et sans déplacer les données vers S3. Les points d’accès S3 attachés à FSx pour les systèmes de fichiers OpenZFS fonctionnent de la même manière que les points d’accès S3 attachés à des compartiments S3, en fournissant un accès aux données via S3 avec un accès contrôlé par des politiques d’accès, tandis que les données continuent d’être stockées dans FSx pour les systèmes de fichiers OpenZFS ou dans des compartiments S3. Par exemple, une fois qu’un point d’accès S3 est connecté à un système de fichiers FSx pour OpenZFS, les clients peuvent utiliser le point d’accès avec des services et des applications d’IA générative, de machine learning et d’analytique qui fonctionnent avec S3 pour accéder à leurs données FSx pour OpenZFS.
Durabilité et protection des données
Ouvrir toutSimple Storage Service (Amazon S3) utilise une combinaison de totaux de contrôle Content-MD5, d’algorithmes de hachage sécurisé et de contrôles de redondance cycliques (CRC) pour vérifier l’intégrité des données. Amazon S3 exécute ces totaux de contrôle sur des données au repos et répare toute disparité en utilisant les données redondantes. En outre, les derniers kits SDK AWS calculent automatiquement des sommes de contrôle efficaces basées sur contrôle de redondance cyclique (CRC) pour l’ensemble des chargements. S3 vérifie indépendamment cette somme de contrôle et n’accepte les objets qu’après avoir vérifié que l’intégrité des données a été maintenue pendant le transit sur l’Internet public. Si une version du kit SDK ne fournissant pas de somme de contrôle précalculée est utilisée pour charger un objet, S3 calcule une somme de contrôle basée sur CRC pour l’ensemble de l’objet, y compris pour les chargements en plusieurs parties. Les sommes de contrôle sont stockées dans les métadonnées des objets et sont donc disponibles pour vérifier l’intégrité des données à tout moment. Vous pouvez choisir parmi cinq algorithmes de somme de contrôle pris en charge pour vérifier l’intégrité des données lors de vos demandes de chargement et de téléchargement. Vous pouvez choisir un algorithme de total de contrôle SHA-1, SHA-256, CRC32, CRC32C ou CRC64NVME, selon les besoins de votre application. Vous pouvez calculer et vérifier automatiquement les totaux de contrôle lorsque vous stockez ou récupérez des données à partir de S3, et vous pouvez accéder aux informations sur le total de contrôle à tout moment à l’aide de l’API HeadObject S3, de l’API GetObjectAttributes S3 ou d’un rapport d’inventaire S3. Le calcul du total de contrôle pendant la diffusion des données dans S3 vous fait gagner du temps, car vous pouvez vérifier et transmettre vos données en une seule fois, au lieu de deux opérations séquentielles. L’utilisation de totaux de contrôle pour la validation des données est une bonne pratique pour la durabilité des données, et ces capacités augmentent les performances et réduisent le coût de cette opération.
2) Jour 16 du mois : vous effectuez une opération PUT de 5 Go (5 368 709 120 octets) dans le même compartiment en utilisant la même clé que l’opération PUT d’origine du Jour 1.
Lorsque les coûts de stockage des opérations ci-dessus sont analysés, notez que l'objet de 4 Go du Jour 1 n'est pas supprimé du compartiment lorsque l'objet de 5 Go est écrit le Jour 15. L’objet de 4 Go est plutôt préservé en tant qu’ancienne version et l’objet de 5 Go devient la version la plus récemment écrite de l’objet au sein de votre compartiment. À la fin du mois : utilisation totale (en octets-heure)
[4 294 967 296 octets x 31 jours x (24 heures/jour)] + [5 368 709 120 octets x 16 jours x (24 heures/jour)] = 5 257 039 970 304 octets-heure. Conversion en Go total-mois
5 257 039 970 304 octets/heure x (1 Go / 1 073 741 824 octets) x (1 mois / 744 heures) = 6 581 Go/mois Le coût est calculé sur la base des tarifs en vigueur pour votre région indiqués sur la page de tarification Amazon S3.
Pour en savoir plus, consultez le guide de l’utilisateur de S3 Object Lock.
S3 Object Lock peut être configuré dans deux modes. Lorsqu'ils sont déployés en mode de gouvernance, les comptes AWS avec des autorisations IAM spécifiques peuvent supprimer la protection WORM de la version d'un objet. Si vous avez besoin d'une immuabilité plus forte pour vous conformer à des réglementations, vous pouvez utiliser le mode de conformité. En mode de conformité, la protection WORM ne peut être supprimée par aucun utilisateur, y compris le compte racine.
Non, vous ne pouvez pas désactiver S3 Object Lock ou S3 Versioning pour les compartiments une fois que S3 Object Lock est activé.
Pour commencer à répliquer des objets avec S3 Replication à partir de compartiments pour lesquels S3 Object Lock est activé, vous pouvez ajouter une configuration de réplication sur votre compartiment source en spécifiant un compartiment de destination dans la même région AWS ou dans une Région AWS différente et dans le même compte AWS ou un compte AWS différent. Vous pouvez choisir de répliquer tous les objets au niveau du compartiment S3, ou de filtrer les objets au niveau d'un préfixe partagé ou au niveau de l'objet à l'aide de balises d'objet S3. Vous devrez également spécifier un rôle AWS Identity and Access Management (IAM) avec les autorisations requises pour effectuer l'opération de réplication. Vous pouvez utiliser la console S3, l'API AWS, l'interface de ligne de commande AWS CLI, les kits SDK AWS ou AWS CloudFormation pour activer la réplication. La gestion des versions S3 doit être activée pour les compartiments source et de destination. En outre, pour répliquer des objets à partir de compartiments compatibles S3 Object Lock, S3 Object Lock doit également être activé dans votre compartiment de destination. Pour plus d’informations, consultez la documentation sur la configuration de la réplication S3 et l’utilisation de S3 Object Lock avec S3 Replication.
Oui, pour répliquer des objets à partir de compartiments compatibles avec S3 Object Lock, vous devez accorder deux nouvelles autorisations, s3:GetObjectRetention et s3:GetObjectLegalHold, sur le compartiment source dans le rôle IAM que vous utilisez pour configurer la réplication. Sinon, si le rôle IAM dispose d'une autorisation s3:Get*, il répond à l'exigence. Pour plus d’informations, consultez la documentation sur l’utilisation de S3 Object Lock avec la réplication S3.
Non, toutes les fonctionnalités de Réplication S3, telles que la Réplication S3 sur une même région (S3 SRR), la Réplication interrégionale S3 (S3 CRR), les métriques de réplication S3 pour suivre la progression, le contrôle du temps de réplication, le Contrôle du temps de réplication S3 (S3 RTC) et la Réplication par lots S3, sont prises en charge lors de la réplication à partir de compartiments S3 Object Lock.
Vous pouvez utiliser la réplication par lots S3 pour répliquer des objets existants à partir de compartiments compatibles avec S3 Object Lock. Pour plus d’informations sur la réplication d’objets existants, consultez la documentation sur la Réplication par lots S3.
Classes de stockage
Ouvrir toutAu moment de choisir la classe de stockage S3 idéale pour votre charge de travail, vous devez prendre en compte les modèles d’accès et le délai de conservation de vos données pour une optimisation des coûts les plus avantageux par rapport à la durée de vie de vos données. De nombreuses charges de travail ont des modèles d’accès changeants (contenus générés par les utilisateurs), imprévisibles (analytique, lacs de données) ou inconnus (nouvelles applications). C’est pourquoi S3 Intelligent-Tiering doit être la classe de stockage par défaut pour économiser automatiquement sur les coûts de stockage. Si vous connaissez les modèles d'accès de vos données, vous pouvez suivre ces recommandations. La classe de stockage S3 Standard est idéale pour les données fréquemment consultées. Il s'agit du meilleur choix si vous accédez à vos données plus d'une fois par mois. La classe de stockage S3 Standard – Accès peu fréquent est idéale pour les données conservées pendant au moins un mois et consultées une fois tous les mois ou tous les deux mois. Les classes de stockage Amazon S3 Glacier sont spécialement conçues pour l'archivage de données et vous offrent les meilleures performances, la plus grande flexibilité de récupération et le stockage d'archives le plus économique du cloud. Vous pouvez désormais choisir parmi trois classes de stockage d'archives optimisées pour différents modèles d'accès et durées de stockage. Pour les données d'archives nécessitant un accès immédiat, telles que les images médicales, les ressources des médias d'information ou les données génomiques, choisissez la classe de stockage S3 Glacier Instant Retrieval, une classe de stockage d'archives qui offre le stockage le plus économique avec une récupération en quelques millisecondes. Pour les données d'archives qui ne nécessitent pas un accès immédiat, mais qui ont besoin de la flexibilité nécessaire pour récupérer gratuitement de grands ensembles de données, comme dans les cas de sauvegarde ou de reprise après sinistre, choisissez S3 Glacier Flexible Retrieval (anciennement S3 Glacier), avec une récupération en quelques minutes ou des récupérations en bloc gratuites en 5 à 12 heures. Pour économiser encore plus sur le stockage d'archives de longue durée, comme les archives de conformité et la préservation des médias numériques, choisissez S3 Glacier Deep Archive, le stockage le plus économique du cloud avec une récupération des données en 12 heures. Toutes ces classes de stockage fournissent une résilience sur plusieurs zones de disponibilité en stockant de manière redondante vos données sur plusieurs appareils et dans plusieurs zones de disponibilité AWS physiquement séparées dans une région AWS.
Pour les données qui ont des exigences de résilience plus faibles, vous pouvez réduire vos coûts en sélectionnant une classe de stockage mono-AZ, telle que S3 One Zone-Infrequent Access. Si vos exigences en matière de résidence des données ne peuvent pas être satisfaites par une Région AWS existante, vous pouvez utiliser les classes de stockage S3 pour les zones locales dédiées AWS ou les racks S3 sur Outposts pour stocker vos données dans un périmètre spécifique.
S3 Intelligent-Tiering
Ouvrir toutIl n'existe aucune taille d'objet minimale pour S3 Intelligent-Tiering, mais les objets plus petits que 128 Ko ne sont pas éligibles à la hiérarchisation automatique. Ces objets plus petits peuvent être stockés dans S3 Intelligent-Tiering, mais ils seront toujours facturés aux taux du niveau Accès fréquent, les frais de surveillance et d'automatisation ne seront cependant pas facturés. Si vous souhaitez normaliser S3 Intelligent-Tiering comme classe de stockage par défaut pour les données nouvellement créées, vous pouvez modifier vos applications en spécifiant INTELLIGENT_TIERING dans l'en-tête de votre demande d'API S3 PUT. S3 Intelligent-Tiering est conçu pour être disponible à 99,9 % et durable à 99,999999999 %. Il offre automatiquement des performances de débit élevé et de faible latence comparables à celles de S3 Standard. Vous pouvez utiliser Explorateur de coûts AWS pour mesurer les économies supplémentaires réalisées grâce au niveau Accès instantané aux archives.
Moyennant des frais mensuels modiques pour la surveillance et l'automatisation, S3 Intelligent-Tiering surveille les modèles d'accès et déplace automatiquement les objets entre les niveaux d'accès à faible latence et à débit élevé, ainsi qu'entre deux niveaux optionnels d'accès aux archives asynchrones. Ces niveaux offrent aux clients les coûts de stockage les plus économiques dans le cloud pour les données qui peuvent être consultées de façon asynchrone.
Il n'existe aucune taille d'objet facturable minimale dans S3 Intelligent-Tiering, mais les objets plus petits que 128 Ko ne sont pas éligibles pour la hiérarchisation automatique. Ces petits objets ne seront pas surveillés et seront toujours facturés aux tarifs du niveau Accès fréquent, sans frais de surveillance et d'automatisation. Pour chaque objet archivé au niveau Archive Access ou au niveau Deep Archive Access dans S3 Intelligent-Tiering, Amazon S3 utilise 8 Ko de stockage pour le nom de l’objet et d’autres métadonnées (facturés aux tarifs de stockage S3 Standard) et 32 Ko de stockage pour l’index ainsi que les métadonnées connexes (facturés aux tarifs de stockage S3 Glacier Flexible Retrieval et S3 Glacier Deep Archive).
S3 Standard
Ouvrir toutS3 Express One Zone
Ouvrir toutVous pouvez importer des données provenant de la même Région AWS dans la classe de stockage S3 Express One Zone via la console S3 en utilisant l’option Importer après avoir créé un compartiment de répertoires. L’importation simplifie la copie des données dans des compartiments de répertoires S3 en vous permettant de choisir un préfixe ou un compartiment à partir duquel importer les données sans avoir à spécifier tous les objets à copier individuellement. S3 Batch Operations copie les objets dans le préfixe ou le compartiment à usage général sélectionné et vous pouvez suivre la progression de la tâche d’importation et de copie via la page de détails de la tâche S3 Batch Operations.
Les compartiments de répertoires S3 n’ayant enregistré aucune activité de demande pendant une période de trois mois ou plus deviennent inactifs. Lorsqu’il est inactif, un compartiment de répertoires est temporairement inaccessible pour les opérations de lecture et d’écriture. Les compartiments inactifs conservent l’intégralité du stockage, ainsi que les métadonnées d’objets et de compartiments. Les frais de stockage existants s’appliquent aux compartiments inactifs. Suite à une demande d’accès à un compartiment inactif, celui-ci passe à l’état actif généralement en quelques minutes. Pendant cette période de transition, les opérations de lecture et d’écriture renverront un code d’erreur 503 SlowDown.
Supposons que vous stockiez 10 Go de données dans S3 Express One Zone pendant 30 jours, soit un total de 1 000 000 écritures et 9 000 000 lectures, et que vous y accédiez avec Athena avec une taille de requête de 10 Ko. Ensuite, vous supprimez 1 000 000 fichiers au bout de 30 jours. En supposant que votre compartiment se trouve dans la Région USA Est (Virginie du Nord), les frais de stockage et inhérents aux demandes sont calculés comme suit : Frais de stockage
Utilisation totale (en octet-heure) = 10 Go/mois
Coût de stockage total = 10 Go/mois x 0,11 USD = 1,10 USD Frais inhérents aux demandes
1 000 000 de demandes PUT : 1 000 000 de demandes x 0,00113 USD/1 000 = 1,13 USD
9 000 000 de demandes GET : 9 000 000 de demandes x 0,00003 USD/1 000 = 0,27 USD
1 000 000 de demandes DELETE = 1 000 000 de demandes x 0,00 USD (gratuit) = 0 USD Frais de chargement de données : 10 Ko/1 048 576 x 1 000 000 x 0,0032 USD = 0,03 USD
Frais de récupération de données : 10 Ko/1 048 576 x 9 000 000 x 0,0006 USD = 0,05 USD
Total des frais = 1,10 USD + 1,13 USD + 0,27 USD + 0,03 USD + 0,05 USD = 2,58 USD Exemple 2 :
Supposons que vous stockiez 10 To de données pour la formation au machine learning pour une charge de travail de 8 heures par jour, puis que vous les supprimiez. Au cours de cette charge de travail de 8 heures, vous effectuez 5 242 880 écritures et 10 485 760 lectures pour une taille de requête de 2 Mo. Supposons que vous le fassiez pendant 30 jours (soit un mois). Frais de stockage
Utilisation totale en octet-heure = [10 995 116 277 760 octets x 30 jours x (8 heures/jour)] = 2 638 827 906 662 400 octets-heures = 3 303,77 Go/mois
Coût de stockage total = 3 303,77 Go x 0,11 USD = 363,41 USD Frais inhérents aux demandes
5 242 880 de demandes PUT par jour : 5 242 880 de demandes x 30 x 0,00113 USD/1 000 = 177,73 USD
10 485 760 de demandes GET par jour : 10 485 760 de demandes x 30 x 0,00003 USD/1 000 = 9,44 USD
5 242 880 de demandes DELETE/jour : 5 242 880 de demandes x 0,00 USD (gratuit) = 0 USD Frais de téléchargement de données : 2 Mo/1 024 x 5 242 880 x 30 x 0,0032 USD = 983,04 USD
Frais de récupération de données : 2 Mo/1 024 x 10 485 760 x 30 x 0,0006 USD = 368,64 USD
Total des frais = 363,41 USD + 177,73 USD + 9,44 USD + 983,04 USD + 368,64 USD = 1 902,26 USD
S3 Standard-Infrequent Access (S3 Standard-IA)
Ouvrir toutS3 One Zone-Infrequent Access (S3 One Zone-IA)
Ouvrir toutClasse de stockage Amazon S3 Glacier Instant Retrieval
Ouvrir toutClasse de stockage Amazon S3 Glacier Flexible Retrieval
Ouvrir toutRemarque : S3 Glacier Flexible Retrieval est également disponible via les API Glacier directes d'origine et via la console de gestion Amazon S3 Glacier. Pour une expérience amélioré complète avec un accès à toutes les fonctions S3 définies, y compris la gestion du cycle de vie, la réplication S3, S3 Storage Lens, etc., nous vous recommandons d’utiliser les API S3 et la console de gestion S3 pour l’utilisation des fonctions S3 Glacier.
Avec les unités de capacité allouées de la classe de stockage S3 Glacier, vous pouvez payer des frais initiaux fixes pour un mois donné afin de garantir la disponibilité de la capacité de récupération pour les récupérations accélérées à partir de S3 Glacier Flexible Retrieval. Vous pouvez acheter deux unités de capacité allouées par mois pour augmenter la quantité de données que vous pouvez récupérer. Chaque unité de capacité garantit qu'au moins trois extractions rapides soient exécutées toutes les cinq minutes, et offre jusqu'à 150 Mo/s de débit d'extraction. Si votre application nécessite un accès hautement fiable et prévisible à un sous-ensemble de vos données en quelques minutes, vous devriez acheter une capacité d'extraction allouée. Sans capacité allouée, des extractions expéditives pourraient ne pas être acceptées pendant les périodes de grande demande. Si vous avez besoin d'extractions expéditives à tout moment, nous vous recommandons d'acheter une capacité d'extraction allouée.
Vous pouvez acheter une capacité allouée à l'aide de la console Amazon S3, l'API REST d'achat de capacité allouée, les kits de développement (SDK) AWS ou AWS CLI. Une unité de capacité allouée a une période d'expiration d'un mois dès la date et l'heure de l'achat. Il s'agit de la date d'entrée en vigueur. L'unité expire à la date d'expiration, exactement un mois après la date d'entrée en vigueur à la seconde près. Pour des renseignements sur la tarification des capacités allouées, consultez la section de Tarification Amazon S3.
1,000032 gigaoctets par objet x 100 000 objets = 100 003,2 gigaoctets de stockage dans S3 Glacier.
0,000008 gigaoctet par objet x 100 000 objets = 0,8 gigaoctet de stockage dans S3 Standard.
Le tarif est calculé sur la base des tarifs en vigueur pour votre Région AWS, qui sont indiqués sur la page de tarification Amazon S3. Pour des exemples de facturation S3 supplémentaires, consultez nos FAQ sur la facturation S3 ou utilisez le calculateur de prix AWS.
S3 Glacier Flexible Retrieval exige également 40 Ko de métadonnées supplémentaires pour chaque objet archivé. Cela comprend 32 Ko de métadonnées facturées au tarif S3 Glacier Flexible Retrieval nécessaire pour identifier et récupérer vos données. Et un supplément de 8 Ko de données facturé au tarif S3 Standard qui est nécessaire pour maintenir le nom et les métadonnées définis par l'utilisateur pour les objets archivés sur S3 Glacier Flexible Retrieval. Vous pouvez ainsi obtenir la liste en temps réel de tous vos objets S3 à l'aide de l'API S3 LIST ou du rapport d'inventaire S3. Consultez la page de tarification Amazon S3 pour obtenir des informations sur la tarification de Amazon S3 Glacier Flexible Retrieval.
Amazon S3 Glacier Deep Archive
Ouvrir toutPour migrer les données, vous pouvez également utiliser AWS Snowball. Snowball accélère le transfert de téraoctets et de pétaoctets de données vers et depuis AWS à l’aide d’appareils de stockage sécurisés pour le transport. Grâce à Snowball, vous pouvez surmonter les difficultés rencontrées lors d’importants transferts de données, en particulier les coûts de réseau élevés, la durée des transferts et les problèmes de sécurité. Pour finir, vous pouvez utiliser AWS Direct Connect pour établir des connexions réseau dédiées depuis votre environnement sur site vers AWS. Généralement, AWS Direct Connect peut réduire les coûts de réseau, augmenter le débit de bande passante et fournir une expérience réseau plus cohérente que les connexions basées sur Internet.
S3 sur Outposts
Ouvrir toutGestion du stockage
Ouvrir toutPour en savoir plus, consultez le guide de l’utilisateur de balises d’objet S3.
Vous devez utiliser Amazon S3 Metadata si vous souhaitez utiliser le langage SQL pour interroger les informations relatives à vos objets S3 afin d’identifier rapidement des jeux de données spécifiques pour votre IA générative, vos analytiques et d’autres cas d’utilisation. S3 Metadata met les métadonnées à jour quasiment en temps réel. Vous pouvez donc utiliser n’importe quel client compatible Iceberg pour exécuter des requêtes SQL afin de rechercher des objets à l’aide des métadonnées des objets. Par exemple, vous pouvez utiliser une requête SQL pour renvoyer une liste d’objets correspondant à certains filtres, tels que les objets ajoutés au cours des 30 derniers jours dans n’importe quel compartiment.
Les métadonnées S3 sont conçues pour générer automatiquement des métadonnées qui fournissent des informations supplémentaires sur les objets qui sont chargés dans un compartiment et pour rendre ces métadonnées consultables dans une table en lecture seule. Ces tables de métadonnées sont stockées dans des tableaux Amazon S3, qui reposent sur Apache Iceberg et fournissent un moyen géré de stocker et d’interroger des données tabulaires dans S3. S3 Metadata crée et maintient des métadonnées au niveau du système telles que la taille de l’objet, des métadonnées personnalisées telles que des balises et des métadonnées définies par l’utilisateur lors du téléchargement de l’objet, ainsi que des métadonnées d’événements telles que l’adresse IP qui a envoyé la demande. À mesure que les données de votre compartiment changent, les métadonnées S3 sont mises à jour quasiment en temps réel pour refléter les dernières modifications. Vous pouvez ensuite interroger vos tables de métadonnées à l’aide de divers services d’analytique AWS et d’outils open source qui sont compatibles avec Iceberg, notamment Amazon Athena, Amazon QuickSight et Apache Spark.
Vous pouvez commencer à utiliser S3 Metadata en quelques clics dans la Console S3. Il vous suffit de sélectionner le compartiment S3 à usage général sur lequel vous souhaitez activer les métadonnées S3. S3 analysera les données de votre compartiment et créera une table Apache Iceberg entièrement gérée contenant les métadonnées de tous vos objets. En quelques minutes, vous pouvez commencer à interroger vos métadonnées à l’aide de n’importe quel moteur de requête ou outil prenant en charge Apache Iceberg.
Vos tables S3 Metadata sont stockées dans un compartiment de tables géré par AWS sur votre compte AWS, appelé aws-s3. Vos tables seront en lecture seule et seul S3 sera autorisé à écrire, mettre à jour ou supprimer des métadonnées.
S3 Metadata stocke les métadonnées dans deux tables gérées de votre compte : les tables de journal et les tables d’inventaire dynamiques.
La table de journal S3 Metadata fournit une vue des modifications apportées dans votre compartiment. Au fur et à mesure que des objets sont ajoutés, mis à jour et supprimés depuis vos compartiments S3 à usage général, les modifications correspondantes sont prises en compte dans les tables de journaux quasiment en temps réel. Les tableaux de journaux sont utiles pour comprendre le comportement de vos applications et pour identifier toute modification apportée à vos jeux de données. Par exemple, vous pouvez écrire des requêtes SQL pour les tables de journal afin de rechercher des objets S3 correspondant à un filtre, tels que des objets ajoutés au cours des 30 derniers jours, des objets ajoutés par des demandeurs actifs ou des objets dont les métadonnées ont été modifiées au cours de la dernière semaine.
Le tableau d’inventaire dynamique des métadonnées S3 contient une liste complète de tous les objets de votre compartiment. Les tableaux d’inventaire en temps réel sont mis à jour toutes les heures et contiennent toutes les informations que S3 connaît sur vos objets. Les tableaux d’inventaire dynamiques sont utiles pour découvrir ou identifier les jeux de données de votre compartiment, en fonction des caractéristiques générées dans les métadonnées des objets. Par exemple, vous pouvez utiliser des tableaux d’inventaire dynamiques pour identifier des jeux de données de formation pour le machine learning, pour les utiliser dans le cadre d’exercices d’optimisation des coûts de stockage ou pour aider à appliquer les contrôles de gouvernance.
Lorsque vous ajoutez de nouveaux objets à votre compartiment, vous verrez apparaître les entrées dans le tableau de journal dans les minutes qui suivent, et vous verrez apparaître les entrées dans le tableau d’inventaire en direct lors de la prochaine actualisation horaire. Lorsque vous activez les métadonnées S3 sur un compartiment existant, S3 lance automatiquement une opération de remplissage afin de générer des métadonnées pour tous vos objets existants. Ce remplissage se termine généralement en quelques minutes, mais peut prendre plusieurs heures si vos jeux de données existants contiennent des millions ou des milliards d’objets S3.
La fonction S3 Inventory constitue une alternative planifiée à l’API List synchrone d’Amazon S3. Vous pouvez configurer la fonction d’inventaire S3 pour fournir, chaque jour ou chaque semaine, un fichier de sortie au format CSV, ORC ou Parquet à partir de vos objets, et des métadonnées qui sont associées à ceux-ci, pour un compartiment S3 ou un préfixe. Vous pouvez simplifier et accélérer les flux de travail d’entreprise et les tâches de Big Data à l’aide de la fonction S3 Inventory. Vous pouvez utiliser la fonction S3 Inventory pour vérifier le chiffrement et l’état de la réplication de vos objets, afin de répondre aux besoins commerciaux, de conformité et de réglementation. Pour en savoir plus, consultez le guide de l’utilisateur d’Amazon S3 Inventory.
S3 Tables fournit un stockage S3 spécialement créé pour stocker des données structurées au format Apache Parquet, Avro et ORC. Dans un compartiment de tables, vous pouvez créer des tables en tant que ressources de première classe directement dans S3. Ces tables peuvent être sécurisées par des autorisations au niveau de la table définie dans des politiques basées sur l’identité ou les ressources et sont accessibles par des applications ou des outils qui prennent en charge la norme Apache Iceberg. Lorsque vous créez une table dans votre compartiment de tables, les données sous-jacentes dans S3 sont stockées sous forme de données Parquet, Avro ou ORC. S3 utilise ensuite la norme Apache Iceberg pour stocker les métadonnées nécessaires pour que ces données puissent être interrogées par vos applications. S3 Tables inclut une bibliothèque client qui est utilisée par les moteurs de requête pour naviguer et mettre à jour les métadonnées Iceberg des tables de votre compartiment de tables. Cette bibliothèque, associée aux API S3 mises à jour pour les opérations sur les tables, permet à plusieurs clients de lire et d’écrire en toute sécurité des données dans vos tables. Au fil du temps, S3 optimise automatiquement les données Parquet, Avro ou ORC sous-jacentes en réécrivant ou en « compactant » vos objets. Le compactage optimise vos données sur S3 afin d’améliorer les performances des requêtes et de minimiser les coûts.
Vous pouvez commencer à utiliser S3 Tables en quelques étapes simples, sans avoir à installer d’infrastructure en dehors de S3. Tout d’abord, créez un compartiment de tables dans la console S3. Lors de la création de votre premier compartiment de tables via la console, l’intégration aux services d’analytique AWS se fait automatiquement, ce qui permet à S3 de renseigner automatiquement tous les compartiments de tables et les tableaux de votre compte et de votre région dans le Catalogue de données AWS Glue. Par la suite, S3 Tables est désormais accessible aux moteurs de requêtes AWS tels qu’Amazon Athena, EMR et Redshift. Vous pouvez ensuite cliquer pour créer un tableau à l’aide d’Amazon Athena depuis la console S3. Une fois dans Athena, vous pouvez rapidement commencer à remplir de nouvelles tables et à les interroger.
Vous pouvez également accéder à S3 Tables à l’aide du point de terminaison du catalogue REST Iceberg via le Catalogue de données AWS Glue, qui vous permet de découvrir l’intégralité de votre patrimoine de données, y compris toutes les ressources des tables. Vous pouvez également vous connecter directement à un point de terminaison de compartiment de tables individuel pour découvrir toutes les ressources S3 Tables de ce compartiment. Cela vous permet d’utiliser S3 Tables avec n’importe quelle application ou n’importe quel moteur de requête prenant en charge la spécification du catalogue REST Apache Iceberg.
Vous pouvez vous attendre à des performances de requête jusqu’à trois fois plus rapides et à des transactions par seconde (TPS) jusqu’à dix fois plus élevées par rapport au stockage de tables Iceberg dans des compartiments Amazon S3 à usage général. En effet, les compartiments de tables compactent automatiquement les données Parquet Avro ou ORC sous-jacentes de vos tables afin d’optimiser les performances des requêtes, et le stockage spécialement conçu prend en charge jusqu’à dix fois le TPS par défaut.
Les compartiments de tables vous permettent d’appliquer des politiques de ressources à l’ensemble du compartiment ou à des tables individuelles. Les politiques relatives aux compartiments de tables peuvent être appliquées à l’aide des API PutTablePolicy et PutTableBucketPolicy. Les politiques au niveau des tables vous permettent de gérer les autorisations relatives aux tables de vos compartiments de tables en fonction de la table logique à laquelle elles sont associées, sans avoir à connaître l’emplacement physique des fichiers Parquet, Avro ou ORC individuels. De plus, l’accès public par bloc S3 est toujours appliqué à vos compartiments de tables.
Les compartiments de tables prennent en charge le format de table Apache Iceberg avec les données Parquet, Avro ou ORC.
Si vous souhaitez en savoir plus sur S3 Batch Operations, regardez les didacticiels et consultez la documentation.
Vous pouvez également définir une stratégie de cycle de vie S3 visant à supprimer des objets après un délai bien précis. Vous pouvez utiliser les options d'automatisation basées sur ces stratégies afin de réduire rapidement et facilement vos coûts de stockage, mais également pour gagner du temps. Dans chaque règle, vous pouvez définir un préfixe, une période, une transition vers S3 Standard – Accès peu fréquent, S3 Unizone – Accès peu fréquent, S3 Glacier Instant Retrieval, S3 Glacier Flexible Retrieval, S3 Glacier Deep Archive, et/ou un délai d'expiration. Par exemple, vous pouvez créer une règle afin que tous les objets dotés du préfixe commun « logs/ » soient archivés dans S3 Glacier Flexible Retrieval 30 jours après leur création et expirent après 365 jours.
Vous pouvez également créer une règle distincte spécifiant que seuls les objets dotés du préfixe « backups/ » expirent 90 jours après leur création. Les stratégies de cycle de vie S3 s'appliquent aux objets S3 nouveaux et existants. Ainsi, vous pouvez optimiser le stockage et réaliser des économies maximales en termes de coûts pour toutes les données existantes et les nouvelles données placées dans S3, sans avoir besoin d'effectuer manuellement la vérification et la migration des données.
Au sein d'une règle de cycle de vie, le champ de préfixe identifie l'objet auquel la règle s'applique. Pour appliquer la règle à un objet individuel, spécifiez le nom de clé. Pour appliquer la règle à un ensemble d'objets, spécifiez leur préfixe commun (e.g. « logs/ »). Vous pouvez définir une action de transition pour que vos objets soient archivés, et une action d'expiration pour les supprimer. Pour définir une période, indiquez la date de création (par ex. : 31 janvier 2015) ou précisez le délai après lequel vous souhaitez que vos objets soient archivés ou supprimés, en spécifiant un nombre de jours à compter de la date de création (par ex. : 30 jours). Vous pouvez créer plusieurs règles pour différents préfixes.
Analyses et informations sur le stockage
Ouvrir toutLe tableau de bord S3 Storage Lens est organisé autour de quatre principaux types de questions portant sur votre stockage auxquelles vous pouvez répondre. Avec le filtre Résumé, les questions de niveau supérieur liées à l'utilisation globale du stockage et aux tendances de l'activité peuvent être consultées. Par exemple, « à quelle vitesse mon nombre global d'octets et de demandes augmente-t-il au fil du temps ? » Avec le filtre Optimisation des coûts, vous pouvez explorer les questions liées à la réduction des coûts de stockage. Par exemple, « Puis-je économiser de l'argent en conservant moins de versions non actuelles ? » Avec les filtres Protection des données et Gestion des accès, vous pouvez répondre à des questions sur la sécurisation de vos données. Par exemple, « Mon stockage est-il protégé contre toute suppression accidentelle ou intentionnelle ? » Enfin, avec les filtres Performance et Évènements, vous pouvez explorer les moyens d’améliorer la performance et les flux de travail. Chacune de ces questions représente un premier niveau d’enquête qui conduirait probablement à une analyse approfondie.
Un tableau de bord par défaut est configuré automatiquement pour l’ensemble de votre compte, et vous avez la possibilité de créer des tableaux de bord personnalisés supplémentaires qui peuvent être étendus à votre organisation AWS, à des régions spécifiques ou à des compartiments au sein d’un compte. Vous pouvez configurer plusieurs tableaux de bord personnalisés. Cela peut être utile si vous avez besoin d'une séparation logique dans votre analyse de stockage, telle que la segmentation sur des compartiments pour représenter diverses équipes internes. Par défaut, votre tableau de bord recevra gratuitement des métriques de S3 Storage Lens, mais vous avez la possibilité d'effectuer une mise à niveau pour recevoir les métriques et recommandations avancées de S3 Storage Lens (moyennant un coût supplémentaire). Les métriques avancées de S3 Storage Lens ont 7 options distinctes : métriques d'activité, métriques d'optimisation avancée des coûts, métriques de protection avancée des données, métriques de code d'état détaillé, agrégation de préfixes, publication CloudWatch et agrégation de groupes Storage Lens. En outre, pour chaque tableau de bord, vous pouvez activer l’exportation des métriques, avec des options supplémentaires pour spécifier le compartiment de destination et le type de chiffrement.
S3 Storage Lens propose deux niveaux de métriques. Les métriques gratuites sont activées par défaut et disponibles sans frais supplémentaires pour tous les clients S3. Les prix détaillés des métriques et recommandations avancées de S3 Storage Lens sont disponibles sur la page de tarification de S3. Avec les métriques gratuites de S3 Storage Lens, vous recevez 28 métriques d'utilisation au niveau du compartiment et vous pouvez accéder à 14 jours d’historique de données dans le tableau de bord. Avec les métriques et recommandations avancées de S3 Storage Lens, vous recevez 35 métriques additionnelles, l’agrégation au niveau du préfixe, la prise en charge des métriques CloudWatch d’un filtrage personnalisé des métadonnées des objets avec les groupes S3 Storage Lens, et vous pouvez accéder à 15 mois de données historiques dans le tableau de bord.
Exécution de requêtes sur place
Ouvrir toutRéplication
Ouvrir toutPour en savoir plus sur la configuration et la réplication du cycle de vie, référez-vous à la documentation relative à la réplication S3.
Oui. S3 Replication permet aux clients de répliquer leurs données vers plusieurs compartiments de destination dans la même région AWS ou dans différentes régions AWS. Lors de la configuration, spécifiez simplement le nouveau compartiment de destination dans votre configuration de réplication existante, ou créez une configuration de réplication avec plusieurs compartiments de destination. Pour chaque nouvelle destination que vous spécifiez, vous avez la possibilité de choisir la classe de stockage du compartiment de destination, le type de chiffrement, les métriques de réplication et les notifications, le Replication Time Control (RTC) et d'autres propriétés.
Question : Puis-je utiliser S3 Replication pour configurer la réplication bidirectionnelle entre les compartiments S3 ?
Rendez-vous sur la page de tarification Amazon S3 pour obtenir davantage de détails sur la tarification de la réplication S3.
Dans une configuration active-active, les points d'accès multi-régionaux S3 tiennent compte de facteurs tels que la congestion du réseau et l'emplacement de l'application qui fait la demande pour acheminer dynamiquement vos demandes sur le réseau AWS vers la copie la plus proche de vos données. Les points d'accès multi-régionaux S3 acheminent vos demandes à travers l'emplacement AWS le plus proche de votre client, puis à travers le réseau privé global AWS vers S3. Quelle que soit la configuration, les points d’accès multi-régionaux S3 vous permettent de tirer parti de l’infrastructure globale d’AWS tout en conservant une architecture d’application simple.
La réplication interrégionale S3 (S3 CRR) et les points d’accès multi-régionaux S3 sont des fonctions complémentaires qui interagissent pour répliquer les données à travers les Régions AWS, puis pour acheminer automatiquement les requêtes vers la copie répliquée avec la latence la plus faible. Les points d'accès multi-régionaux S3 vous aident à gérer les demandes entre les régions AWS, tandis que la réplication interrégionale vous permet de déplacer les données entre les régions AWS pour créer des répliques isolées. Vous utilisez les points d’accès multi-régionaux S3 et la réplication interrégionale pour créer un jeu de données multi-régional répliqué qui est adressable par un seul point de terminaison global.
Lorsque vous utilisez un point d’accès multi-régional S3 pour acheminer des requêtes au sein d’AWS, vous payez de faibles frais de routage de données par Go pour chaque Go traité, ainsi que des frais standard pour les demandes, le stockage, le transfert de données et la réplication S3. Si votre application s'exécute en dehors d'AWS et accède à S3 via Internet, les points d'accès multi-régions S3 augmentent les performances en acheminant automatiquement vos demandes via un emplacement périphérique AWS, sur le réseau AWS privé mondial, vers la copie la plus proche de vos données en fonction de la latence d'accès. Lorsque vous accélérez des demandes effectuées sur Internet, vous payez des frais de routage des données et des frais d'accélération de l'Internet. La tarification de l'accélération de l'Internet des points d'accès multi-régionaux S3 varie selon que le client source se trouve dans la même région AWS de destination ou dans un emplacement différent, et s'ajoute à la tarification standard du transfert de données S3. Pour utiliser les contrôles de basculement des points d'accès multi-régionaux S3, vous n'avez à payer que les coûts de l'API S3 standard pour voir l'état actuel du contrôle du routage de chaque région et pour transmettre tout changement de contrôle du routage afin de lancer un basculement. Reportez-vous à la page de tarification Amazon S3 et l’onglet de transfert de données pour plus d’informations sur la tarification.
Oui, vous pouvez configurer les compartiments sous-jacents du point d’accès multi-régional S3 pour qu’ils soient des compartiments Requester Pays. Avec Requester Pay, le demandeur paie tous les coûts associés à l'utilisation du terminal, y compris le coût des demandes et les coûts de transfert de données associés à la fois au compartiment et au point d'accès multi-régional. En général, vous souhaitez configurer vos compartiments en tant que compartiments Requester Paye si vous souhaitez partager des données sans encourir de frais liés à l'accès d'autres personnes aux données. En général, les propriétaires de compartiments paient pour tout le stockage Amazon S3 associé à leur compartiment. Pour en savoir plus, rendez-vous sur S3 Requester Pays.
La console S3 procure un flux de travail simple et guidé pour configurer rapidement tout ce dont vous avez besoin pour bénéficier d’un stockage multi-régions sur S3 en seulement trois étapes simples. Tout d'abord, créez un point de terminaison de point d'accès multi-régional Amazon S3 et spécifiez les régions AWS entre lesquelles vous souhaitez effectuer une réplication et un basculement. Vous pouvez ajouter des compartiments dans plusieurs comptes AWS à un nouveau point d'accès multi-régional S3 en saisissant les identifiants des comptes propriétaires des compartiments au moment de leur création. Ensuite, pour chaque région AWS et compartiment S3 derrière le point de terminaison de votre point d'accès multi-régional S3, indiquez si l'état de routage est actif ou passif, les régions AWS actives acceptant le trafic de demandes de données S3 et les régions passives n'étant pas acheminées jusqu'à ce que vous lanciez un basculement. Troisièmement, configurez vos règles de réplication entre régions S3 pour synchroniser vos données dans S3 entre les régions et/ou les comptes. Vous pouvez ensuite lancer un basculement à tout moment entre les régions AWS en quelques minutes pour transférer vos demandes de données S3 et surveiller le transfert de votre trafic S3 vers votre nouvelle région AWS active dans Amazon CloudWatch. Vous pouvez également utiliser AWS CloudFormation pour automatiser votre configuration de stockage multi-régional. Tous les éléments nécessaires à la configuration d’un stockage multi-régional sur S3, y compris les points d’accès multi-régionaux S3, sont pris en charge par CloudFormation, ce qui vous permet d’automatiser un processus de configuration reproductible en dehors de la console S3.