Passer au contenu principal

Instances Amazon EC2 DL1

Coûts d'entraînement des modèles de deep learning peu élevés

Pourquoi choisir les instances Amazon EC2 DL1 ?

Les instances Amazon EC2 DL1 optimisées par les accélérateur Gaudi de Habana Labs (une société Intel) permettent de réduire les coûts d'entraînement des modèles de deep learning pour les cas d'utilisation concernant le traitement du langage naturel, la détection d'objets et la reconnaissance des images. Les instances DL1 offrent un rapport prix/performance jusqu'à 40 % supérieur pour l'entraînement de deep learning par rapport à la génération actuelle d'instances EC2 basées sur les GPU.

Les instances Amazon EC2 DL1 sont dotées de 8 accélérateurs Gaudi avec 32 Gio de mémoire à haute bande passante (HBM, high bandwidth memory) par accélérateur, 768 Gio de mémoire système, des processeurs de 2e génération Intel Xeon Scalable sur mesure, 400 Gbit/s de débit réseau et 4 To de stockage local NVMe.

Les instances DL1 incluent le kit SDK Habana SynapseAI®. Ce dernier est intégré aux principaux cadres de machine learning tels que TensorFlow et PyTorch.

Pour pouvez facilement démarrer les instances DL1 à l'aide des AWS Deep Learning AMI ou des AWS Deep Learning Containers, ou encore à l'aide d'Amazon EKS et ECS pour les applications conteneurisées. La prise en charge des instances DL1 dans Amazon SageMaker sera bientôt disponible.

Nouvelle vidéo de présentation des instances Amazon EC2 DL1

Avantages

Les instances DL1 offrent un rapport prix/performance jusqu'à 40 % supérieur pour l'entraînement de deep learning par rapport à nos dernières instances EC2 basées sur les GPU. Ces instances disposent d'accélérateurs Gaudi spécialement conçus pour l'entraînement des modèles de deep learning. Vous pouvez également réaliser des économies supplémentaires en utilisant des Savings Plan EC2 afin de réduire considérablement les coûts d'entraînement de vos modèles de deep learning.

Quel que soit leur niveau d'expertise, tous les développeurs peuvent facilement démarrer les instances DL1. Ils peuvent continuer à utiliser leurs propres services de gestion des flux en utilisant des AWS DL AMI ou des DL Containers pour démarrer les instances DL1. Les utilisateurs avancés peuvent également créer des noyaux personnalisés pour optimiser les performances de leurs modèles à l'aide des Tensor Processing Cores programmables de Gaudi. (TPCs). À l'aide des outils Habana SynapseAI®, les utilisateurs peuvent migrer aisément leurs modèles existants qui s'exécutent sur des instances basés sur des GPU ou CPU vers les instances DL1 avec des modifications minimales du code.

Les instances DL1 prennent en charge les principaux cadres de ML tels que TensorFlow et PyTorch, ce qui vous permet de continuer à utiliser vos flux de ML préférés. Pour pouvez accéder à des modèles optimisés tels que Mask R-CNN pour la détection d'objets et BERT pour le traitement du langage naturel sur le référentiel GitHub de Habana pour rapidement créer, entraîner et déployer vos modèles. La riche bibliothèque de noyaux Tensor Processing Core (TPC) de SynapseAI prend en charge un large éventail d'opérateurs et plusieurs types de données pour un large ensemble de modèles et de besoins de performances.

Fonctions

Les instances DL1 sont optimisées par les accélérateurs Gaudi de Habana Labs (une société Intel), qui disposent de huit TPC entièrement programmables et de 32 Gio de mémoire à haute bande passante par accélérateur. Elles sont dotées d'une architecture de calcul hétérogène qui permet de maximiser l'efficacité de l'entraînement ainsi que d'un moteur centralisé configurable pour les opérations mathématiques de la matrice. Elles disposent également de la seule intégration native du secteur de dix ports Ethernet 100 gigabits sur chaque accélérateur Gaudi pour une communication à faible latence entre les accélérateurs.

Le kit SDK Habana SynapseAI® se compose d'un compilateur et d'un environnement d'exécution graphiques, d'une bibliothèque de noyaux TPC, d'un micrologiciel, de pilotes et d'outils. Il est intégré aux principaux cadres, tels que TensorFlow et PyTorch. Ses bibliothèques de communication permettent de se mettre rapidement à l'échelle vers plusieurs accélérateurs qui utilisent les mêmes opérations que celles que vous utilisez aujourd'hui pour les instances basées sur des GPU. Cette mise à l'échelle déterministe se traduit par une utilisation plus élevée et une efficacité accrue sur un large éventail de topologies de réseaux neuronaux. À l'aide des outils SynapseAI®, vous pouvez migrer et exécuter en toute transparente vos modèles existants sur des instances DL1 avec des modifications minimales du code.

Les instances DL1 offrent 400 Gbits/s de débit réseau et de connectivité à Amazon Elastic Fabric Adapter (EFA) et Amazon Elastic Network Adapter (ENA) aux applications qui ont besoin d'accéder à une mise en réseau à haut débit. Pour accéder rapidement à des jeux de données volumineux, les instances DL1 incluent également 4 To de stockage NVMe local et offrent un débit de lecture de 8 Go/s.

Les instances DL1 reposent sur AWS Nitro System, qui est un ensemble étendu de composants qui décharge de nombreuses fonctions de virtualisation traditionnelles sur du matériel et des logiciels dédiés afin d’offrir des niveaux élevés de performances, de disponibilité et de sécurité, tout en réduisant les frais de virtualisation.

Informations sur le produit

Instance Size
vCPU
Instance Memory (GiB)
Gaudi Accelerators
Network Bandwidth (Gbps)
Accelerator Peer-to-Peer Bidirectional (Gbps)
Instance Storage (GB)
EBS Bandwidth (Gbps)
On-demand (Price/Hr)
1-yr Reserved Instance Effective Hourly
3-yr Reserved Instance Effective Hourly*
dl1.24xlarge

96

768

8

400

100

4 x 1000 
SSD NVMe

19

13,11 USD

7,87 USD

5,24 USD

* Prix pratiqués dans les régions USA Est (Virginie du Nord) et USA Ouest (Oregon).

 

Seagate

Seagate Technology est un leader mondial proposant des solutions de stockage et de gestion de données depuis plus de 40 ans. Les ingénieurs en science des données et en apprentissage automatique de Seagate ont mis au point un système avancé de détection des défauts par apprentissage profond (DL) et l'ont déployé dans le monde entier sur les sites de fabrication de l'entreprise. Dans un récent projet de preuve de concept, Habana Gaudi a dépassé les objectifs de performance pour l'entraînement de l'un des modèles de segmentation sémantique de DL actuellement utilisés dans la production de Seagate. 

« Nous pensons que l'avantage significatif en termes de rapport prix/performances des instances Amazon EC2 DL1, alimentées par les accélérateurs Habana Gaudi, pourrait constituer un ajout intéressant aux clusters de calcul AWS à l'avenir. Tandis que Habana Labs continue d'évoluer et permet une couverture plus large des opérateurs, il est possible de l'étendre à d'autres cas d'utilisation d'entreprise, et réaliser ainsi des économies de coûts supplémentaires. »

Darrell Louder, directeur technique senior des opérations, de la technologie et des analyses avancées, Seagate
Missing alt text value

Leidos

Leidos est reconnu en tant que l’un des 10 meilleurs fournisseurs informatiques dans le domaine de la santé offrant une large gamme de solutions personnalisables et évolutives aux hôpitaux et aux systèmes de santé, aux organisations biomédicales et à toutes les agences fédérales américaines axées sur la santé. 

« L'une des nombreuses technologies que nous mettons au point pour faire progresser les soins de santé aujourd'hui est l'utilisation de l'apprentissage automatique et de l'apprentissage profond pour le diagnostic des maladies sur la base de données d'imagerie médicale. Nos gigantesques jeux de données nécessitent un entraînement rapide et efficace pour aider les chercheurs à résoudre certains des mystères médicaux les plus urgents. Étant donné que Leidos et ses clients ont besoin d'un entraînement rapide, facile et rentable de leurs modèles de deep learning, nous sommes ravis d'avoir commencé ce voyage avec Intel et AWS pour utiliser les instances Amazon EC2 DL1 basées sur les processeurs d'IA Habana Gaudi. En utilisant les instances DL1, nous prévoyons une augmentation de la vitesse et de l'efficacité de l'entraînement des modèles, ce qui entraînera une réduction des risques et des coûts de recherche et développement. «

Chetan Paul, directeur technique de la santé et des services sociaux - Leidos
Missing alt text value

Intel

Intel a créé la technologie 3D de suivi des athlètes qui analyse la vidéo des athlètes en action en temps réel pour informer les processus d'entraînement aux performances et améliorer les expériences du public lors des compétitions.

« L'entraînement de nos modèles sur des instances Amazon EC2 DL1, alimentées par les accélérateurs Gaudi de Habana Labs, nous permettra de traiter de manière précise et fiable des milliers de vidéos et de générer les données de performance associées, tout en réduisant les coûts de formation. Grâce aux instances DL1, nous pouvons désormais nous entraîner à la vitesse et au coût requis pour servir de manière productive les athlètes, les équipes et les diffuseurs de tous niveaux dans une variété de sports. «

Rick Echevarria, vice-président du groupe des ventes et du marketing - Intel
Missing alt text value

Carburant à risque

RiskFuel fournit des évaluations en temps réel et des sensibilités au risque aux entreprises qui gèrent des portefeuilles financiers, les aidant ainsi à améliorer la précision et les performances de leurs transactions.

« Deux facteurs nous ont attirés vers les instances Amazon EC2 DL1 basées sur les accélérateurs d'IA Habana Gaudi. Tout d'abord, nous voulons nous assurer que nos clients dans les domaine de la banque et de l'assurance puissent exécuter des modèles Riskfuel qui tirent parti du matériel le plus récent. Fort heureusement pour nous, nous avons constaté que la migration de nos modèles vers des instances DL1 est très simple : en réalité, il suffit simplement de changer quelques lignes de code. Deuxièmement, les coûts de formation constituent une composante importante de nos dépenses, et la promesse d'une amélioration de 40 % de la performance des prix pourrait apporter des avantages substantiels à nos résultats financiers. «

Ryan Ferguson, PDG de Riskfuel
Missing alt text value

Fractal


Fractal est un leader mondial de l'intelligence artificielle et de l'analyse qui favorise les décisions des entreprises figurant au classement Fortune 500.
 

« L'IA et l'apprentissage profond sont au cœur de nos capacités de vision industrielle, permettant aux clients de prendre de meilleures décisions dans tous les secteurs que nous desservons. Afin d'améliorer la précision, les jeux de données deviennent de plus en plus volumineux et complexes, et nécessitent des modèles plus volumineux et plus complexes. Cela conduit à la nécessité d'améliorer le calcul du rapport prix/performances. Les nouvelles instances Amazon EC2 DL1 promettent un entraînement à un coût considérablement inférieur par rapport aux instances EC2 basées sur des GPU. Nous nous attendons à ce que la formation des modèles d'IA sur le cloud soit beaucoup plus compétitive et accessible qu'auparavant pour un large éventail de clients. «

Srikanth Velamakanni, PDG du groupe - Fractal
Missing alt text value

Mise en route

AWS Deep Learning AMI (DLAMI) et AWS Deep Learning Containers (DLC)

Les AWS Deep Learning AMI (DLAMI) et les AWS Deep Learning Containers (DLC) fournissent aux scientifiques des données, aux spécialistes du ML et aux chercheurs des images de machines et de conteneurs préinstallées et dotées de cadres de deep learning permettant de faciliter le démarrage et d'ignorer le processus compliqué de création et d'optimisation de vos environnements logiciels à partir de zéro. Le kit SDK SynapseAI pour les accélérateurs Gaudi est intégré aux AWS DLAMI et aux AWS DLC, ce qui vous permet de démarrer rapidement avec les instances DL1.

Amazon Elastic Kubernetes Service (EKS) ou Elastic Container Service (ECS)

Les clients qui préfèrent gérer leurs propres charges de travail conteneurisées via des services d’orchestration de conteneurs peuvent déployer des instances DL1 avec Amazon EKS ou ECS.

Avez-vous trouvé les informations que vous recherchiez ?

Faites-nous part de vos commentaires afin que nous puissions améliorer le contenu de nos pages