Passer au contenu principal

Amazon EMR

Amazon EMR

Exécuter facilement et mettez à l’échelle Apache Spark, Hive, Presto et d'autres charges de travail big data

Pourquoi Amazon EMR ?

Amazon EMR est un service de traitement de big data qui accélère les charges de travail analytiques avec une flexibilité et une évolutivité inégalées. EMR propose des environnements d'exécution optimisés pour les performances d'Apache Spark, Trino, Apache Flink et Apache Hive, ce qui permet de réduire considérablement les coûts et les temps de traitement. Le service s'intègre parfaitement à AWS, simplifiant les flux de travail des lacs de données et les architectures à l'échelle de l'entreprise. Grâce à une mise à l'échelle automatique intégrée, à une surveillance intelligente et à une infrastructure gérée, EMR vous permet de vous concentrer sur l'extraction d'informations, et non sur la gestion des clusters, en fournissant des analytiques efficaces à l'échelle du pétaoctet sans les frais opérationnels des solutions traditionnelles.

Missing alt text value

Options de déploiement flexibles

Pourquoi EMR sans serveur ?

Amazon EMR sans serveur permet aux analystes de données et aux ingénieurs d'exécuter facilement des frameworks d'analytique du big data open source tels qu'Apache Spark sans configurer, gérer et dimensionner des clusters ou des serveurs.  EMR sans serveur est le moyen le plus rapide de commencer à profiter de toutes les fonctionnalités et avantages d'Amazon EMR sans avoir à faire appel à des experts pour planifier et gérer les clusters.  

EMR sans serveur

Pourquoi Amazon EMR sur Amazon EC2 ?

Amazon EMR sur Amazon EC2 permet de contrôler la configuration des clusters et prend en charge les clusters de longue durée, ce qui en fait la solution idéale pour les tâches de traitement continu des données qui nécessitent des configurations matérielles spécifiques. Vous pouvez installer des applications personnalisées parallèlement à des frameworks populaires tels qu'Apache Spark et Trino, tout en proposant un large éventail de types d'instances EC2 pour optimiser à la fois les coûts et les performances. L'intégration avec d'autres services AWS et la possibilité d'utiliser des instances Spot en font une solution rentable pour les organisations qui ont besoin d'un contrôle granulaire de leurs opérations de big data.

Pourquoi Amazon EMR sur Amazon EKS ?

Amazon EMR sur Amazon Elastic Kubernetes Service (EKS) vous permet de soumettre des tâches Apache Spark à la demande sur EKS sans provisionner de clusters. Avec EMR on EKS, vous pouvez exécuter vos charges de travail analytiques sur le même cluster Amazon EKS que vos autres applications basées sur Kubernetes afin d'améliorer l'utilisation des ressources et de simplifier la gestion de l'infrastructure.  

Amazon EMR sur Amazon EKS

Traiter vos données avec Amazon EMR dans la prochaine génération d'Amazon SageMaker

Amazon EMR est disponible dans la prochaine génération d'Amazon SageMaker, ce qui vous permet d'exécuter facilement Apache Spark, Trino et d'autres frameworks d'analytique open source dans un environnement de développement de données et d'IA unifié.

En savoir plus.

Missing alt text value

Avantages

Amazon EMR associe Apache Spark aux performances optimisées pour un traitement plus rapide et rentable à la flexibilité de choisir les types d'instances, y compris les instances Spot, et à un autoscaling entièrement géré qui adapte dynamiquement la taille du cluster, éliminant ainsi le surprovisionnement et réduisant les dépenses globales.

Amazon EMR offre des performances jusqu'à 3,9 fois supérieures à celles d'Apache Spark open source, tout en préservant la compatibilité des API. Il permet aux clients de déployer les frameworks open source de leur choix : Apache Spark, Trino, Apache Flink ou Apache Hive. EMR prend en charge les formats de table ouverte les plus courants tels que Iceberg, Hudi et Delta pour accélérer le temps d'obtention d'informations.

EMR offre plusieurs choix en matière de déploiement, notamment EMR sans serveur pour un traitement entièrement géré et sans infrastructure, EMR sur EC2 pour un contrôle précis des clusters et EMR sur EKS pour les charges de travail big data natives de Kubernetes. Qu'il s'agisse de gérer des clusters à court terme pour des tâches à la demande ou des clusters de longue durée pour des tâches persistantes, EMR s'adapte à vos besoins opérationnels tout en optimisant les coûts grâce à une allocation flexible des ressources et à une évolutivité efficace.

Amazon EMR, la nouvelle génération d'Amazon SageMaker, vous permet d'exécuter des frameworks open source tels qu'Apache Spark, Trino et Apache Flink, ce qui vous permet de dimensionner facilement les charges de travail analytiques, le tout sans provisionner ni gérer d'infrastructure. Grâce aux fonctionnalités d'EMR dans Amazon SageMaker, vous pouvez unifier le traitement des données et le développement de modèles, permettant ainsi des flux de travail de bout en bout, de la transformation des données brutes au déploiement de l'IA dans un environnement collaboratif unique.

Cas d’utilisation

Exécuter un traitement de données et des analyses basées sur les hypothèses à grande échelle à l'aide d'algorithmes statistiques et de modèles prédictifs afin de découvrir des modèles cachés, des corrélations, des tendances du marché et des préférences de client.
Extraire des données de sources diverses, les traiter à grande échelle et les mettre à la disposition des applications et des utilisateurs.
Analyser les événements provenant de sources de données de streaming en temps réel pour créer des pipelines de données de streaming à exécution longue, hautement disponibles et tolérants aux pannes.
Analyser les données à l'aide de cadres ML open source tels qu'Apache Spark MLlib, TensorFlow et Apache MXNet. Se connecter à Amazon SageMaker Studio pour l'entraînement des modèles à grande échelle, l'analyse et la génération de rapports.