Clients AWS Inferentia
Découvrez comment les clients utilisent AWS Inferentia pour déployer des modèles de deep learning.
NetoAI
NetoAI fournit la suite TelcoCore, qui comprend TSLAM, ViNG, DigiTwin et NAPI, pour aider les opérateurs de télécommunications à automatiser leurs opérations complexes et multidomaines et la gestion du cycle de vie des clients. Notre TSLAM LLM, le premier modèle open source orienté vers l’action pour ce secteur, en constitue la pierre angulaire. Pour le créer, nous avons dû optimiser un modèle basé sur notre énorme jeu de données exclusives de deux milliards de jetons. En utilisant Amazon SageMaker avec les instances AWS Trainium trn1, nous avons réalisé des économies de coûts remarquables et avons terminé l’ensemble des réglages en moins de trois jours. Pour la production, AWS Inferentia2 et le SDK Neuron nous offrent une latence d’inférence constamment faible, comprise entre 300 et 600 ms. Cette solution de bout en bout basée sur des puces AWS AI spécialement conçues pour AWS est essentielle à notre mission qui consiste à fournir une IA spécialisée et performante à l’ensemble du secteur des télécommunications.
Ravi Kumar Palepu Fondateur et PDG
SplashMusic
La formation de grands modèles audio/audio pour HummingLM nécessite à la fois des calculs et des itérations. En migrant nos charges de travail de formation vers AWS Trainium et en les orchestrant avec Amazon SageMaker HyperPod, nous avons réduit les coûts de formation de 54 % et accéléré les cycles de formation de 50 % tout en préservant la précision du modèle. Nous avons également migré plus de 2 Po de données vers Amazon S3 en une semaine seulement, en tirant parti d’Amazon FSx pour Lustre pour un accès haut débit et à faible latence aux données d’entraînement et aux points de contrôle. Grâce aux instances Inf2 alimentées par AWS Inferentia2, nos latences d’inférence peuvent être réduites jusqu’à 10 fois, ce qui permet une génération de musique en temps réel plus rapide et plus réactive.
Tomofun
Tomofun, la start-up de technologie pour animaux de compagnie basée à Taïwan à l'origine de la caméra Furbo Pet Camera, redéfinit la façon dont les propriétaires d'animaux interagissent à distance avec leurs animaux de compagnie. Furbo associe des caméras intelligentes à l'IA pour détecter des comportements tels que les aboiements, la course ou les activités inhabituelles, et alerte les propriétaires en temps réel. Le défi était double : Tomofun devait garantir la rentabilité d’une surveillance continue du comportement des animaux sur des milliers d’appareils, tout en préservant la fidélité du modèle et le débit sans réécrire de larges portions du code base de BLIP, qui avait déjà été optimisé pour PyTorch. En migrant l’inférence BLIP vers des instances Amazon EC2 Inf2, Tomofun a réduit ses coûts de déploiement de 83 %.