- Amazon EC2›
- Tipos de instância›
- Instâncias Trn2
Comece a usar instâncias Trn2 usando o AWS Neuron
A computação do EC2 mais avançada para o treinamento e a inferência de IA generativa
Por que optar pelas instâncias Trn2 e UltraServers do Amazon EC2?
As instâncias Trn2 do Amazon EC2, com tecnologia de 16 chips do AWS Trainium2, foram desenvolvidas com propósito específico para a IA generativa e representam as instâncias do EC2 mais avançadas para treinar e implantar modelos com centenas de bilhões a mais de trilhões de parâmetros. As instâncias Trn2 oferecem uma performance de preço 30-40% melhor do que as instâncias EC2 P5e e P5en baseadas em GPU. Com as instâncias Trn2, é possível obter uma performance de treinamento e de inferência de última geração, ao mesmo tempo em que reduz custos. Isso possibilita diminuir o tempo de treinamento, iterar mais rapidamente e fornecer experiências em tempo real com tecnologia de IA. É possível usar as instâncias Trn2 para treinar e implantar modelos, incluindo grandes modelos de linguagem (LLMs), modelos multimodais e transformadores de difusão, para o desenvolvimento de aplicações de IA generativa da próxima geração.
Para reduzir os tempos de treinamento e fornecer tempos de resposta revolucionários (latência por token) nos modelos mais avançados e complexos pode ser necessário mais recursos de computação e memória do que uma única instância é capaz de disponibilizar. As instâncias Trn2 UltraServers usam o NeuronLink, nossa interconexão proprietária “chip-to-chip”, para conectar 64 chips do Trainium2 em quatro instâncias Trn2, quadruplicando a capacidade de processamento, memória e largura de banda da rede disponíveis em um único nó. Isso fornece uma performance revolucionária na AWS para workloads de aprendizado profundo e de IA generativa. Para tarefas de inferência, os servidores UltraServers contribuem para proporcionar menores tempos de resposta, garantindo as melhores experiências em tempo real. Para tarefas de treinamento, os UltraServers aumentam a velocidade e a eficiência do treinamento de modelos com uma comunicação coletiva mais rápida para o paralelismo de modelos, em comparação com as instâncias autônomas.
É possível começar a usar as instâncias Trn2 e as instâncias Trn2 UltraServers com suporte nativo para estruturas conhecidas de machine learning (ML), como PyTorch e JAX.
“Os Trn2 UltraServers já estão disponíveis para as workloads de IA generativa mais exigentes.”
Benefícios
As instâncias Trn2 ajudam na redução do tempo de treinamento, além de oferecer uma experiência de inferência em tempo real aos usuários finais. As instâncias Trn2 são equipadas com 16 chips do Trainium2 interconectados pelo NeuronLink, nosso interconector proprietário “chip-to-chip”, para oferecer até 20,8 petaflops de computação FP8. As instâncias Trn2 contam com um total de 1,5 TB de HBM3 com 46 terabytes por segundo (TBps) de largura de banda de memória e 3,2 terabits por segundo (Tbps) de rede do Elastic Fabric Adapter (EFAv3). Os servidores Trn2 UltraServers (disponíveis em versão prévia) contam com 64 chips do Trainium2 conectados pelo NeuronLink e oferecem até 83,2 petaflops de computação FP8, 6 TB de memória de alta largura de banda no total, com 185 TBps de largura de banda de memória total, e 12,8 Tbps de rede do EFAv3.
Para possibilitar o treinamento distribuído eficiente, as instâncias Trn2 fornecem 3,2 Tbps e os servidores Trn2 UltraServers fornecem 12,8 Tbps de rede do EFAv3. O EFA é desenvolvido com base no AWS Nitro System, o que significa que toda a comunicação realizada por meio do EFA é criptografada em trânsito, sem prejudicar a performance. O EFA também faz uso de um protocolo complexo de roteamento de tráfego e controle de congestionamento, permitindo que seja escalado de forma confiável para centenas de milhares de chips do Trainium2. As instâncias Trn2 e UltraServers estão sendo implantadas em UltraClusters do EC2 para possibilitar o treinamento distribuído do aumento horizontal da escala, com dezenas de milhares de chips do Trainium em uma rede de escala petabit sem bloqueios.
As instâncias Trn2 oferecem uma performance de preço 30-40% melhor do que as instâncias EC2 P5e e P5en baseadas em GPU.
As instâncias Trn2 são três vezes mais eficientes em termos de energia do que as instâncias Trn1. Essas instâncias e os chips subjacentes usam processos avançados de chips, bem como otimizações de hardware e software, para fornecer alta eficiência energética ao executar workloads de IA generativa em grande escala.
O AWS Neuron SDK ajuda você a extrair a performance total das instâncias Trn2 e dos UltraServers. O Neuron integra-se nativamente com JAX, PyTorch e bibliotecas essenciais como Hugging Face, PyTorch Lightning e outras. O Neuron foi desenvolvido para pesquisadores e exploradores de IA alcançarem uma performance revolucionária. Com a integração nativa do PyTorch, você pode treinar e realizar a implantação sem alterar uma única linha de código. Para engenheiros de performance de IA, habilitamos um acesso mais profundo ao Trainium 2, para que você possa ajustar a performance, personalizar kernels e levar seus modelos ainda mais longe. Com o Neuron, você pode usar instâncias Trn2 com serviços como o Amazon SageMaker, o Amazon EKS, o Amazon ECS, o AWS ParallelCluster e o AWS Batch, bem como com serviços de entidades externas como Ray (Anyscale), Domino Data Lab e Datadog. Como a inovação prospera na abertura, a Neuron está comprometida em impulsionar a inovação por meio do código aberto e da colaboração aberta com a ampla comunidade de IA.
Recursos
As instâncias Trn2 são equipadas com 16 chips do Trainium2 interconectados pelo NeuronLink para oferecer até 20,8 petaflops de computação FP8. Os servidores Trn2 UltraServers ampliam a conectividade do NeuronLink para 64 chips do Trainium2 distribuídos em quatro instâncias Trn2, com a finalidade de fornecer até 83,2 petaflops de computação FP8.
As instâncias Trn2 fornecem 1,5 TB de memória de acelerador com 46 TBps de largura de banda de memória total. Os servidores Trn2 UltraServers, por sua vez, oferecem 6 TB de memória de acelerador compartilhada com 185 TBps de largura de banda de memória total para acomodar modelos de base muito grandes.
Para fornecer suporte ao treinamento distribuído do aumento horizontal da escala para modelos de base de grande porte, as instâncias Trn2 oferecem 3,2 Tbps, enquanto os servidores Trn2 UltraServers fornecem 12,8 Tbps de largura de banda da rede do EFAv3. Ao ser combinado com os servidores UltraClusters do EC2, o EFAv3 proporciona uma latência de rede mais baixa em relação ao EFAv2. Cada instância Trn2 oferece suporte para até 8 TB, enquanto cada servidor Trn2 UltraServer fornece suporte para até 32 TB de armazenamento NVMe local, proporcionando acesso mais rápido a grandes conjuntos de dados.
As instâncias Trn2 e os servidores UltraServers são compatíveis com os tipos de dados FP32, TF32, BF16, FP16 e FP8 configurável (cFP8). Além disso, a solução fornece suporte para otimizações de IA de última geração, como dispersão de quatro vezes (16:4), arredondamento estocástico e mecanismos coletivos dedicados. A Neuron Kernel Interface (NKI) possibilita o acesso direto à arquitetura do conjunto de instruções (ISA) ao usar um ambiente baseado em Python com uma interface semelhante ao Triton, permitindo que você realize inovações em novas arquiteturas de modelos e núcleos de computação altamente otimizados que superam as técnicas existentes.
O Neuron fornece suporte para mais de 100 mil modelos disponíveis no hub de modelos da Hugging Face, permitindo o treinamento e a implantação em instâncias Trn2, com destaque para arquiteturas de modelos populares, como Llama e Stable Diffusion. O Neuron fornece integração nativa com JAX, PyTorch e outros recursos fundamentais, como ferramentas, estruturas e bibliotecas, incluindo NeMo, Hugging Face, PyTorch Lightning, Ray, Domino Data Lab e Data Dog. Essa solução otimiza os modelos automaticamente para treinamento e inferência distribuídos, ao mesmo tempo em que oferece insights aprofundados para criação de perfis e depuração. Além disso, o Neuron se integra a serviços como o Amazon SageMaker, o Amazon EKS, o Amazon ECS, o AWS ParallelCluster e o AWS Batch.
Depoimentos de clientes e de parceiros
A seguir, apresentamos exemplos de como clientes e parceiros pretendem atingir suas metas de negócios com as instâncias Trn2 do Amazon EC2.
Anthropic
Na Anthropic, milhões de pessoas usam o Claude todos os dias para desempenharem suas funções no trabalho. Anunciamos dois importantes avanços com a AWS: primeiro, um novo “modo otimizado para latência” para o modelo Claude 3.5 Haiku que apresenta uma performance 60% superior no Trainium2 por meio do Amazon Bedrock. E, segundo, o Project Rainier, que consiste em um novo cluster com centenas de milhares de chips do Trainium2, fornecendo centenas de exaflops, o que representa mais de cinco vezes a capacidade do nosso cluster anterior. O Project Rainier será fundamental para o avanço de nossa pesquisa e para a próxima geração de escalabilidade. Para os nossos clientes, isso representa mais inteligência, preços mais competitivos e maior agilidade. Não estamos apenas desenvolvendo uma IA mais rápida, estamos criando uma IA confiável e com capacidade de escalabilidade.
Databricks
O Mosaic AI da Databricks possibilita que as organizações desenvolvam e implementem sistemas de agentes de alta qualidade. Essa solução é desenvolvida nativamente usando o data lakehouse, o que possibilita que os clientes personalizem seus modelos com dados empresariais de forma fácil e segura, e forneçam resultados mais precisos e específicos para o domínio. Devido à alta performance e à eficiência de custos do Trainium, os clientes podem ampliar o treinamento de modelos no Mosaic AI a um custo reduzido. A disponibilidade do Trainium2 representará um grande benefício para a Databricks e seus clientes, à medida que a demanda pelo Mosaic AI continua a escalar em todos os segmentos de clientes e ao redor do mundo. A Databricks, uma das principais empresas de dados e IA do mundo, planeja usar as instâncias Trn2 para fornecer resultados superiores e reduzir o TCO em até 30% para seus clientes.
poolside
Na Poolside, estamos determinador a criar um mundo em que a IA será responsável pela maior parte do trabalho de valor econômico e do progresso científico. Acreditamos que o desenvolvimento de software será a primeira grande funcionalidade das redes neurais a atingir a inteligência de nível humano, pois é o domínio em que podemos integrar as abordagens de Pesquisa e Aprendizado de forma eficiente. Para tornar isso possível, estamos desenvolvendo modelos de base, uma API e um Assistente para fornecer as capacidades da IA generativa às mãos (ou ao teclado) dos seus desenvolvedores. Um elemento fundamental para possibilitar essa tecnologia é a infraestrutura que estamos usando para desenvolver e executar nossos produtos. Com o AWS Trainium2, nossos clientes terão a capacidade de escalar o uso do modelo da Poolside a uma relação entre preço e performance única em comparação com outros aceleradores de IA. Além disso, planejamos treinar futuros modelos com os servidores UltraServers do Trainium2, com uma economia esperada de 40% em comparação às instâncias P5 do EC2.
Itaú Unibanco
O Itaú Unibanco tem como propósito melhorar a relação das pessoas com o dinheiro, promovendo um impacto positivo em suas vidas e ampliando suas oportunidades de transformação. No Itaú Unibanco, acreditamos que cada cliente é único e nos concentramos em atender às necessidades deles por meio de jornadas digitais intuitivas, que usam a capacidade da IA para se adaptar constantemente aos hábitos de consumo.
Realizamos testes com o AWS Trainium e com o Inferentia em várias tarefas, abrangendo desde a inferência padrão até aplicações com ajustes. A performance desses chips de IA possibilitou que atingíssemos marcos significativos em nossa pesquisa e desenvolvimento. Para tarefas de inferência em lote e on-line, constatamos uma melhoria de sete vezes no throughput em comparação com as GPUs. Essa performance aprimorada está promovendo a expansão de novos casos de uso em toda a organização. A geração mais recentes de chips do Trainium2 revela recursos inovadores para a IA generativa, possibilitando inovações no Itaú.
NinjaTech AI
O Ninja trata-se um agente de IA completo para a obtenção de produtividade ilimitada: uma assinatura simples e acesso ilimitado aos melhores modelos de IA do mundo, além de habilidades avançadas, como: produção textual, programação, geração de ideias, criação de imagens e pesquisa on-line. O Ninja é uma plataforma com capacidades de agentes e disponibiliza o “SuperAgent”, que emprega um conjunto de agentes com precisão de alto nível, comparável aos modelos de base mais avançados e superando-os em determinadas categorias. A tecnologia Agentic do Ninja requer aceleradores de máxima performance para proporcionar as experiências em tempo real únicas que nossos clientes demandam.
Estamos extremamente entusiasmados com o lançamento das instâncias Trn2 da AWS, pois acreditamos que elas oferecerão o melhor custo por performance de token e a velocidade mais rápida atualmente disponível para o nosso modelo principal, Ninja LLM, baseado no Llama 3.1 405B. É impressionante observar a baixa latência das instâncias Trn2 combinada com preços competitivos e disponibilidade sob demanda. Estamos extremamente entusiasmados com a chegada das instâncias Trn2.
Ricoh
A equipe de machine learning da RICOH desenvolve soluções para o ambiente de trabalho e serviços de transformação digital projetados para gerenciar e otimizar o fluxo de informações em nossas soluções empresariais.
A migração para as instâncias Trn1 foi realizada de forma fácil e sem complicações. Conseguimos treinar previamente nosso grande modelo de linguagem (LLM) com 13 bilhões de parâmetros em apenas oito dias, utilizando um cluster de 4.096 chips do Trainium. Após o sucesso obtido com nosso modelo menor, ajustamos um novo grande modelo de linguagem baseado no Llama-3-Swallow-70B. Ao usar o Trainium, conseguimos reduzir os custos de treinamento em 50% e aprimorar a eficiência energética em 25%, em comparação com o uso das máquinas de GPU mais recentes na AWS. Estamos animados em adotar a mais recente geração de chips de IA da AWS, o Trainium2, para continuar fornecendo aos nossos clientes a melhor performance com o menor custo.
PyTorch
O aspecto que mais me agradou na biblioteca NxD Inference do AWS Neuron foi sua integração sem complicações com os modelos da PyTorch. A abordagem do NxD é simples e fácil de usar. Nossa equipe conseguiu integrar os modelos da HuggingFace com PyTorch com alterações mínimas no código em um curto período de tempo. Habilitar recursos avançados, como o agrupamento em lote contínuo e a decodificação especulativa, foi uma tarefa simples. Essa facilidade de uso aumenta a produtividade dos desenvolvedores, permitindo que as equipes dediquem mais tempo à inovação e menos aos desafios de integração.
Refact.ai
A Refact.ai disponibiliza ferramentas avançadas de IA, como o preenchimento automático de código baseado na geração aumentada via recuperação (RAG), fornecendo sugestões mais precisas, e um chat contextual que usa tanto modelos proprietários quanto de código aberto.
Os clientes observaram um aumento de até 20% na performance e 1,5 vezes mais tokens por dólar com as instâncias Inf2 do EC2 em comparação com as instâncias G5 do EC2. As funcionalidades de ajuste da ferramenta Refact.ai aprimoram ainda mais a capacidade dos nossos clientes de compreender e se adaptar à base de código e ao ambiente exclusivos de suas organizações. Estamos igualmente entusiasmados em disponibilizar as funcionalidades do Trainium2, que proporcionarão um processamento ainda mais rápido e eficiente aos nossos fluxos de trabalho. Essa tecnologia avançada possibilitará que nossos clientes acelerem o processo de desenvolvimento de software ao aumentar a produtividade dos desenvolvedores enquanto mantêm padrões rigorosos de segurança para a base de código.
Karakuri Inc.
A KARAKURI desenvolve ferramentas de IA para melhorar a eficiência do suporte ao cliente baseado na Web e simplificar a experiência do cliente. Essas ferramentas incluem chatbots baseados em IA e equipados com funções de IA generativa, ferramentas de centralização de perguntas frequentes e uma ferramenta de resposta por e-mail, que em conjunto aumentam a eficiência e a qualidade do suporte fornecido ao cliente. Com o uso do AWS Trainium, obtivemos sucesso no treinamento do KARAKURI LM 8x7B Chat v0.1. Para startups, como a nossa, é essencial otimizar o tempo de desenvolvimento e os custos associados ao treinamento de LLMs. Com o apoio do AWS Trainium e da equipe da AWS, conseguimos desenvolver um LLM de nível prático em um curto período de tempo. Além disso, ao adotar o AWS Inferentia, conseguimos desenvolver um serviço de inferência rápido e econômico. Estamos entusiasmados com o Trainium2, pois ele revolucionará nosso processo de treinamento, reduzindo o tempo de treinamento pela metade e elevando a eficiência a novos patamares.
Stockmark Inc.
Com a missão de “reinventar o mecanismo de criação de valor e promover a humanidade”, a Stockmark ajuda muitas empresas a criar e construir negócios inovadores fornecendo tecnologia de processamento de linguagem natural de ponta. O novo serviço de análise e coleta de dados da Stockmark, chamado Anews, e o SAT, um serviço de estruturação de dados que aprimora significativamente o uso de IA generativa ao organizar todas as informações armazenadas em uma organização, nos levou a repensar a forma como desenvolvemos e implantamos modelos para apoiar esses produtos. Com 256 aceleradores do Trainium, desenvolvemos e lançamos o stockmark-13b, um grande modelo de linguagem com 13 bilhões de parâmetros, treinado previamente desde o início com um conjunto de dados de corpus japonês com 220 bilhões de tokens. As instâncias Trn1 foram fundamentais para reduzir nossos custos de treinamento em 20%. Com o uso do Trainium, conseguimos desenvolver com sucesso um LLM capaz de responder a perguntas essenciais para os negócios com uma precisão e agilidade sem precedentes. Esta conquista é especialmente relevante considerando o desafio generalizado que as empresas enfrentam para garantir recursos computacionais adequados para o desenvolvimento de modelos. Com a notável velocidade e redução de custos das instâncias Trn1, estamos empolgados para observar os benefícios adicionais que o Trainium2 proporcionará aos nossos fluxos de trabalho e clientes.
Conceitos básicos
O suporte do SageMaker para instâncias Trn2 estará disponível em breve. Você poderá treinar modelos com facilidade em instâncias Trn2 ao usar o Amazon SageMaker HyperPod, que fornece um cluster de computação resiliente, uma performance otimizada de treinamento e uma utilização eficiente dos recursos subjacentes de computação, rede e memória. Além disso,é possível escalar a implantação de seus modelos em instâncias Trn2 usando o SageMaker para gerenciar modelos de forma mais eficiente na produção e reduzir a sobrecarga operacional.
As AMIs de deep learning da AWS (DLAMI) fornecem aprendizado profundo (DL) a profissionais e pesquisadores com a infraestrutura e as ferramentas necessárias para acelerar o DL na AWS em qualquer escala. Os drivers do AWS Neuron já estão configurados na DLAMI para otimizar o treinamento dos modelos de aprendizado profundo em instâncias Trn2.
O suporte dos contêineres de deep learning para instâncias Trn2 estará disponível em breve. Ao usar esses contêineres, você poderá implantar instâncias Trn2 no Amazon Elastic Kubernetes Service (Amazon EKS), um serviço do Kubernetes totalmente gerenciado, e no Amazon Elastic Container Service (Amazon ECS), um serviço de orquestração de contêineres totalmente gerenciado. Além disso, o Neuron está disponível para instalação prévia nos contêineres de deep learning da AWS. Para saber mais informações sobre como executar contêineres em instâncias Trn2, consulte os tutoriais de contêineres do Neuron.
Detalhes do produto
|
Instance Size
|
Available in EC2 UltraServers
|
Trainium2 chips
|
Accelerator memory
|
vCPUs
|
Memory (TB)
|
Instance storage (TB)
|
Network bandwidth (Tbps)
|
EBS bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|
|
Trn2.3xlarge
|
Não |
1 |
96 GB |
12 |
128 GB |
1x 470 GB NVMe SSD
|
200 |
5 |
|
trn2.48xlarge
|
Não
|
16
|
1,5 TB
|
192
|
2 TB
|
4 x 1,92 SSD NVMe
|
3.2
|
80
|
|
trn2u.48xlarge
|
Sim |
16
|
1,5 TB
|
192
|
2 TB
|
4 x 1,92 SSD NVMe
|
3.2
|
80
|