Amazon EMR
Exécuter facilement et mettez à l’échelle Apache Spark, Hive, Presto et d'autres charges de travail big data
Pourquoi Amazon EMR ?
Amazon EMR est un service de traitement de big data qui accélère les charges de travail analytiques avec une flexibilité et une évolutivité inégalées. EMR propose des environnements d'exécution optimisés pour les performances d'Apache Spark, Trino, Apache Flink et Apache Hive, ce qui permet de réduire considérablement les coûts et les temps de traitement. Le service s'intègre parfaitement à AWS, simplifiant les flux de travail des lacs de données et les architectures à l'échelle de l'entreprise. Grâce à une mise à l'échelle automatique intégrée, à une surveillance intelligente et à une infrastructure gérée, EMR vous permet de vous concentrer sur l'extraction d'informations, et non sur la gestion des clusters, en fournissant des analytiques efficaces à l'échelle du pétaoctet sans les frais opérationnels des solutions traditionnelles.

Options de déploiement flexibles
Pourquoi EMR sans serveur ?
Amazon EMR sans serveur permet aux analystes de données et aux ingénieurs d'exécuter facilement des frameworks d'analytique du big data open source tels qu'Apache Spark sans configurer, gérer et dimensionner des clusters ou des serveurs. EMR sans serveur est le moyen le plus rapide de commencer à profiter de toutes les fonctionnalités et avantages d'Amazon EMR sans avoir à faire appel à des experts pour planifier et gérer les clusters.
Pourquoi Amazon EMR sur Amazon EC2 ?
Amazon EMR sur Amazon EC2 permet de contrôler la configuration des clusters et prend en charge les clusters de longue durée, ce qui en fait la solution idéale pour les tâches de traitement continu des données qui nécessitent des configurations matérielles spécifiques. Vous pouvez installer des applications personnalisées parallèlement à des frameworks populaires tels qu'Apache Spark et Trino, tout en proposant un large éventail de types d'instances EC2 pour optimiser à la fois les coûts et les performances. L'intégration avec d'autres services AWS et la possibilité d'utiliser des instances Spot en font une solution rentable pour les organisations qui ont besoin d'un contrôle granulaire de leurs opérations de big data.
Pourquoi Amazon EMR sur Amazon EKS ?
Amazon EMR sur Amazon Elastic Kubernetes Service (EKS) vous permet de soumettre des tâches Apache Spark à la demande sur EKS sans provisionner de clusters. Avec EMR on EKS, vous pouvez exécuter vos charges de travail analytiques sur le même cluster Amazon EKS que vos autres applications basées sur Kubernetes afin d'améliorer l'utilisation des ressources et de simplifier la gestion de l'infrastructure.
Traiter vos données avec Amazon EMR dans la prochaine génération d'Amazon SageMaker
Amazon EMR est disponible dans la prochaine génération d'Amazon SageMaker, ce qui vous permet d'exécuter facilement Apache Spark, Trino et d'autres frameworks d'analytique open source dans un environnement de développement de données et d'IA unifié.

Avantages
Traitement rentable du big data
Amazon EMR associe Apache Spark aux performances optimisées pour un traitement plus rapide et rentable à la flexibilité de choisir les types d'instances, y compris les instances Spot, et à un autoscaling entièrement géré qui adapte dynamiquement la taille du cluster, éliminant ainsi le surprovisionnement et réduisant les dépenses globales.
Accélérer le délai d'obtention d'informations et optimiser les performances
Amazon EMR offre des performances jusqu'à 3,9 fois supérieures à celles d'Apache Spark open source, tout en préservant la compatibilité des API. Il permet aux clients de déployer les frameworks open source de leur choix : Apache Spark, Trino, Apache Flink ou Apache Hive. EMR prend en charge les formats de table ouverte les plus courants tels que Iceberg, Hudi et Delta pour accélérer le temps d'obtention d'informations.
Flexibilité de déploiement inégalée
EMR offre plusieurs choix en matière de déploiement, notamment EMR sans serveur pour un traitement entièrement géré et sans infrastructure, EMR sur EC2 pour un contrôle précis des clusters et EMR sur EKS pour les charges de travail big data natives de Kubernetes. Qu'il s'agisse de gérer des clusters à court terme pour des tâches à la demande ou des clusters de longue durée pour des tâches persistantes, EMR s'adapte à vos besoins opérationnels tout en optimisant les coûts grâce à une allocation flexible des ressources et à une évolutivité efficace.
Optimiser le traitement des données dans Amazon SageMaker
Amazon EMR, la nouvelle génération d'Amazon SageMaker, vous permet d'exécuter des frameworks open source tels qu'Apache Spark, Trino et Apache Flink, ce qui vous permet de dimensionner facilement les charges de travail analytiques, le tout sans provisionner ni gérer d'infrastructure. Grâce aux fonctionnalités d'EMR dans Amazon SageMaker, vous pouvez unifier le traitement des données et le développement de modèles, permettant ainsi des flux de travail de bout en bout, de la transformation des données brutes au déploiement de l'IA dans un environnement collaboratif unique.