- Amazon EC2
- Tipos de instância
- Instâncias P4
Instâncias P4 do Amazon EC2
Alta performance para treinamento de ML e aplicações de HPC na nuvem
Por que usar as instâncias P4 do Amazon EC2?
As instâncias P4d do Amazon Elastic Compute Cloud (Amazon EC2) fornecem alto desempenho para treinamento de machine learning (ML) e aplicações de computação de alta performance (HPC) na nuvem. As instâncias P4d estão equipadas com GPUs NVIDIA A100 Tensor Core e oferecem alto throughput e redes com baixa latência que são líderes do setor. Essas instâncias oferecem suporte a redes de instâncias de 400 Gbps. As instâncias P4d oferecem custo até 60% inferior para treinar modelos de ML, inclusive uma média de performance 2,5 vezes melhor para modelos de aprendizado profundo em comparação com as instâncias P3 e P3dn da geração anterior.
As instâncias P4d são implantadas em clusters chamados Amazon EC2 UltraClusters, que incluem computação, rede e armazenamento de alto desempenho na nuvem. Cada EC2 UltraCluster é um dos supercomputadores mais poderosos do mundo, que ajuda a executar seus mais complexos treinamentos de ML de vários nós e workloads de HPC distribuídas. Você pode escalar com facilidade de algumas a milhares de GPUs NVIDIA A100 nos EC2 UltraClusters com base em suas necessidades de projeto de ML ou HPC.
Pesquisadores, cientistas de dados e desenvolvedores podem usar instâncias P4d para treinar modelos de ML para casos de uso, como processamento de linguagem natural, detecção e classificação de objetos e mecanismos de recomendação. Também podem ser usadas para executar aplicações de HPC, como descoberta farmacêutica, análise sísmica e modelagem financeira. Ao contrário dos sistemas on-premises, você pode acessar capacidade virtualmente ilimitada de computação e armazenamento, escalar a infraestrutura com base nas necessidades de negócios e ativar um trabalho de treinamento de ML de vários nós ou uma aplicação de HPC distribuída fortemente acoplada em minutos, sem custos de configuração ou de manutenção.
Anúncio das novas instâncias P4d do Amazon EC2
Benefícios
Com as GPUs NVIDIA A100 Tensor Core de última geração, cada instância P4d oferece, em média, performance de aprendizado profundo (DL) 2,5 vezes melhor em comparação com instâncias P3 da geração anterior. Os EC2 UltraClusters de instâncias P4d ajudam desenvolvedores, cientistas de dados e pesquisadores a executar workloads de ML e HPC mais complexas, dando acesso à performance de classe de supercomputação sem custos iniciais ou compromissos de longo prazo. O tempo de treinamento reduzido com instâncias P4d aumenta a produtividade, ajudando desenvolvedores a se concentrarem em sua missão principal de desenvolver inteligência de ML em aplicações comerciais.
Os desenvolvedores podem escalar perfeitamente para até milhares de GPUs com EC2 UltraClusters de instâncias P4d. Alto throughput, redes de baixa latência com suporte para redes de instância de 400 Gbps, Elastic Fabric Adapter (EFA) e tecnologia GPUDirect RDMA ajudam a treinar rapidamente modelos de ML usando técnicas de aumento da escala horizontal/distribuídas. O EFA usa a NVIDIA Collective Communications Library (NCCL) para escalar para milhares de GPUs, e a tecnologia GPUDirect RDMA permite a comunicação de GPU para GPU de baixa latência entre instâncias P4d.
As instâncias P4d oferecem custo até 60% inferior para treinar modelos de ML em comparação com as instâncias P3. Além disso, as instâncias P4d estão disponíveis para compra como instâncias spot. As instâncias spot utilizam a capacidade de instâncias do EC2 não utilizadas e podem reduzir substancialmente os custos do EC2 em até 90% em relação aos preços sob demanda. Com a diminuição do custo de treinamento de ML com instâncias P4d, os orçamentos podem ser realocados para desenvolver mais inteligência de ML em aplicações comerciais.
As AMIs de deep learning da AWS (DLAMI) e os contêineres de deep learning da Amazon facilitam a implantação de ambientes de DL P4d em minutos, pois contêm as bibliotecas e ferramentas de framework de DL necessárias. Também é possível adicionar mais facilmente suas próprias bibliotecas e ferramentas a essas imagens. As instâncias P4d são compatíveis com frameworks de ML mais usados, como TensorFlow, PyTorch e MXNet. Além disso, as instâncias P4d são compatíveis com os principais serviços da AWS para ML, gerenciamento e orquestração, como Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch e AWS ParallelCluster.
Recursos
As GPUs NVIDIA A100 Tensor Core oferecem aceleração sem precedentes em escala para ML e HPC. A terceira geração de Tensor Cores do NVIDIA A100 agiliza todas as workloads de precisão, acelerando o tempo de obtenção de insights e de comercialização. Cada GPU A100 oferece performance de computação 2,5 vezes superior em comparação com a GPU V100 da geração anterior e vem com 40 GB de memória de GPU HBM2 (em instâncias P4d) ou 80 GB de HBM2e (em instâncias P4de) de alta performance. Uma memória de GPU maior beneficia em particular as workloads em treinamento sobre grandes conjuntos de dados de dados de alta resolução. As GPUs NVIDIA A100 utilizam throughput de interconexão da GPU NVSwitch para que cada GPU possa se comunicar com todas as outras GPUs na mesma instância com o mesmo throughput bidirecional de 600 GB/s e com latência de salto único.
As instâncias P4d oferecem redes de 400 Gbps para ajudar os clientes a aumentar a escala horizontalmente de suas workloads distribuídas, como treinamento de vários nós de forma mais eficiente, com redes de alto throughput entre instâncias P4d, bem como entre uma instância P4d e serviços de armazenamento, como o Amazon Simple Storage Service (Amazon S3) e FSx para Lustre. O EFA é uma interface de rede personalizada criada pela AWS para ajudar a escalar aplicações de ML e HPC para milhares de GPUs. Para reduzir ainda mais a latência, o EFA é acoplado ao NVIDIA GPUDirect RDMA para habilitar a comunicação de GPU para GPU de baixa latência entre servidores com desvio de sistema operacional.
Alcance um alto throughput em escala de petabytes, armazenamento de baixa latência com FSx para Lustre ou armazenamento com bom custo-benefício praticamente ilimitado com o Amazon S3 a velocidades de 400 Gbps. Para workloads que precisam acessar rapidamente grandes conjuntos de dados, cada instância P4d também inclui armazenamento SSD baseado em NVMe de 8 TB com throughput de leitura de 16 GB/s.
As instâncias P4d são desenvolvidas no AWS Nitro System, que é uma coleção complexa de blocos de criação que transferem muitas das funções tradicionais de virtualização para hardware e software dedicados para entregar altos níveis de performance, disponibilidade e segurança, além de reduzir a sobrecarga da virtualização.
Depoimentos de clientes
Aqui estão alguns exemplos de como clientes e parceiros alcançaram suas metas de negócios com as instâncias P4 do Amazon EC2.
Toyota Research Institute (TRI)
ANÚNCIO TRIPLO
ANÚNCIO TRIPLO
GE Healthcare
HEAVY.AI
Zenotech Ltd.
Aon
Rad AI
Detalhes do produto
|
Instance Size
|
vCPUs
|
Instance Memory (GiB)
|
GPU – A100
|
GPU memory
|
Network Bandwidth (Gbps)
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (GB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p4d.24xlarge
|
96
|
1.152
|
8
|
320GB
HBM2 |
ENA e EFA de 400
|
Sim
|
NVSwitch de 600 GB/s
|
8 x 1000 NVMe SSD
|
19
|
|
p4de.24xlarge
|
96
|
1.152
|
8
|
640 GB
HBM2e |
ENA e EFA de 400
|
Sim
|
NVSwitch de 600 GB/s
|
8 x 1000 NVMe SSD
|
19
|
Conceitos básicos de instâncias P4d para ML
O Amazon SageMaker é um serviço totalmente gerenciado para criar, treinar e implantar modelos de ML. Quando usado em conjunto com as instâncias P4d, os clientes podem escalar facilmente para dezenas, centenas ou milhares de GPUs a fim de treinar rapidamente um modelo em qualquer escala, sem se preocupar com a configuração de clusters e pipelines de dados.
A DLAMI fornece aos profissionais e pesquisadores de ML a infraestrutura e as ferramentas para acelerar o DL na nuvem, em qualquer escala. Os contêineres de aprendizado profundo são imagens do Docker pré-instaladas com estruturas DL para facilitar a implantação rápida de ambientes de ML personalizados, permitindo que você ignore o complicado processo de criar e otimizar seus ambientes do zero.
Conceitos básicos de instâncias P4d para HPC
As instâncias P4d são ideais para executar simulações de engenharia, finanças computacionais, análise sísmica, modelagem molecular, genômica, renderização e outras workloads de HPC baseadas em GPUs. Geralmente, os aplicativos de HPC exigem redes de alta performance, armazenamento rápido, grandes quantidades de memória, recursos elevados de computação ou todos esses itens. As instâncias P4d oferecem suporte EFA, possibilitando que aplicações de HPC usem a Message Passing Interface (MPI) para escalar milhares de GPUs. O AWS Batch e o AWS ParallelCluster ajudam desenvolvedores de HPC a desenvolver e escalar rapidamente aplicações de HPC distribuídas.