UltraClusters do Amazon EC2

Execute aplicações de HPC e ML em grande escala

Por que usar UltraClusters do Amazon EC2?

Os Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters podem ajudar você a escalar para milhares de GPUs ou chips de IA de ML especialmente concebidos, como o AWS Trainium, para obter acesso sob demanda a um supercomputador. Eles democratizam o acesso à performance de classe de supercomputação para desenvolvedores de machine learning (ML), IA generativa e computação de alta performance (HPC) por meio de um modelo de uso simples com pagamento conforme o uso, sem custos de configuração ou manutenção. Instâncias do Amazon EC2 que são implantadas em EC2 UltraClusters incluem as instâncias P6-B200, P5en, P5e, P5, P4d, Trn2 e Trn1.

Os UltraClusters do EC2 consistem em milhares de instâncias aceleradas do EC2 que estão localizadas em uma determinada zona de disponibilidade da AWS e interconectadas usando a rede Elastic Fabric Adapter (EFA) em uma rede sem bloqueio em escala de petabits. Eles também fornecem acesso ao Amazon FSx para Lustre, um armazenamento compartilhado e totalmente gerenciado com base no sistema de arquivos paralelo de alta performance mais popular, para processar rapidamente imensos conjuntos de dados sob demanda e em grande escala com latências inferiores a um milissegundo. Os UltraClusters do EC2 oferecem recursos de aumento de escala horizontal para treinamento distribuído de ML e workloads de HPC de forte acoplamento.

Benefícios

Os UltraClusters do EC2 ajudam a reduzir o tempo de treinamento e o tempo de solução de semanas para apenas alguns dias. Isso ajuda você a iterar em um ritmo mais rápido e a colocar suas aplicações de aprendizado profundo (DL), IA generativa e HPC no mercado com mais rapidez.

As instâncias P5 são implantadas em UltraClusters do EC2 com até 20.000 GPUs H100 para oferecer mais de 20 exaflops de capacidade computacional agregada. Da mesma forma, as instâncias Trn1 podem ser escaladas para 30.000 aceleradores Trainium, enquanto as instâncias P4 podem ser escaladas para 10.000 GPUs A100 para oferecer computação em exaescala sob demanda.

Os UltraClusters do EC2 são compatíveis com uma lista cada vez maior de instâncias do EC2 e oferecem a flexibilidade de escolher a opção de computação certa para maximizar a performance e, ao mesmo tempo, manter os custos sob controle para a sua workload.

Recursos

Rede de alta performance

As instâncias do EC2 implantadas nos UltraClusters do EC2 são interconectadas à rede EFA para melhorar a performance das workloads de treinamento distribuídas e das workloads de HPC de acoplamento forte. As instâncias P6-B200 fornecem até 3,2 terabits por segundo de rede EFAv4. Os Trn2 UltraServers têm 12,8 terabits por segundo de rede EFAv3. As instâncias P5en, P5e, P5 e Trn2 fornecem até 3.200 Gbps; as instâncias Trn1 fornecem até 1.600 Gbps, e as instâncias P4d fornecem até 400 Gbps de rede EFA. O EFA também é acoplado ao NVIDIA GPUDirect Remote Direct Memory Access (RDMA) (P6-B200, P5en, P5e, P5, P4d) e ao NeuronLink (Trn2, Trn1) para permitir a comunicação de acelerador para acelerador de baixa latência entre servidores com desvio do sistema operacional.

Armazenamento de alta performance

Os UltraClusters do EC2 usam o FSx para Lustre, armazenamento compartilhado totalmente gerenciado baseado no sistema de arquivos paralelos de alta performance mais popular. Com o FSx para Lustre, você pode processar rapidamente grandes conjuntos de dados sob demanda e em grande escala, além de oferecer latências inferiores a um milissegundo. As características de baixa latência e alto throughput do FSx para Lustre são otimizadas para workloads de DL, IA generativa e HPC em UltraClusters do EC2. O FSx para Lustre mantém as GPUs e os aceleradores de ML nos UltraClusters do EC2 alimentados com dados, acelerando as workloads mais exigentes. Essas workloads incluem treinamento em grandes modelos de linguagem (LLM), inferência de IA generativa, DL, genômica e modelagem de riscos financeiros. Você também pode obter acesso a armazenamento econômico praticamente ilimitado com o Amazon Simple Storage Service (Amazon S3).

Instâncias e UltraServers com suporte

As instâncias do Amazon EC2 P6-B200, aceleradas pelas GPUs NVIDIA Blackwell, oferecem instâncias de alto desempenho para treinamento em IA, inferência e HPC.

Saiba mais

Equipadas com chips de IA AWS Trainium2, as instâncias Trn2 oferecem uma relação preço-performance de 30 a 40% melhor do que instâncias comparáveis baseadas em GPU.

Saiba mais

Alimentadas pelas GPUs NVIDIA H200 Tensor Core, as instâncias P5en e P5e oferecem a mais alta performance no Amazon EC2 para treinamento de ML e aplicações de HPC.

Saiba mais

Equipadas com GPUs NVIDIA A100 Tensor Core, as instâncias P4d oferecem alta performance para treinamento de ML e aplicações de HPC.

Saiba mais

Alimentadas pelos chips de IA AWS Trainium, as instâncias Trn1 são criadas especificamente para treinamento de ML de alta performance. Elas oferecem até 50% de economia de custos de treinamento em relação a instâncias EC2 comparáveis.

Saiba mais