Amazon EC2

Instâncias P4 do Amazon EC2

Alta performance para treinamento de ML e aplicações de HPC na nuvem

Comece a usar as instâncias P4

Reserve para uso futuro

Por que usar as instâncias P4 do Amazon EC2?

As instâncias P4d do Amazon Elastic Compute Cloud (Amazon EC2) fornecem alto desempenho para treinamento de machine learning (ML) e aplicações de computação de alta performance (HPC) na nuvem. As instâncias P4d estão equipadas com GPUs NVIDIA A100 Tensor Core e oferecem alto throughput e redes com baixa latência que são líderes do setor. Essas instâncias oferecem suporte a redes de instâncias de 400 Gbps. As instâncias P4d oferecem custo até 60% inferior para treinar modelos de ML, inclusive uma média de performance 2,5 vezes melhor para modelos de aprendizado profundo em comparação com as instâncias P3 e P3dn da geração anterior.

As instâncias P4d são implantadas em clusters chamados Amazon EC2 UltraClusters, que incluem computação, rede e armazenamento de alto desempenho na nuvem. Cada EC2 UltraCluster é um dos supercomputadores mais poderosos do mundo, que ajuda a executar seus mais complexos treinamentos de ML de vários nós e workloads de HPC distribuídas. Você pode escalar com facilidade de algumas a milhares de GPUs NVIDIA A100 nos EC2 UltraClusters com base em suas necessidades de projeto de ML ou HPC.

Pesquisadores, cientistas de dados e desenvolvedores podem usar instâncias P4d para treinar modelos de ML para casos de uso, como processamento de linguagem natural, detecção e classificação de objetos e mecanismos de recomendação. Também podem ser usadas para executar aplicações de HPC, como descoberta farmacêutica, análise sísmica e modelagem financeira. Ao contrário dos sistemas on-premises, você pode acessar capacidade virtualmente ilimitada de computação e armazenamento, escalar a infraestrutura com base nas necessidades de negócios e ativar um trabalho de treinamento de ML de vários nós ou uma aplicação de HPC distribuída fortemente acoplada em minutos, sem custos de configuração ou de manutenção.

Anúncio das novas instâncias P4d do Amazon EC2

Benefícios

Com as GPUs NVIDIA A100 Tensor Core de última geração, cada instância P4d oferece, em média, performance de aprendizado profundo (DL) 2,5 vezes melhor em comparação com instâncias P3 da geração anterior. Os EC2 UltraClusters de instâncias P4d ajudam desenvolvedores, cientistas de dados e pesquisadores a executar workloads de ML e HPC mais complexas, dando acesso à performance de classe de supercomputação sem custos iniciais ou compromissos de longo prazo. O tempo de treinamento reduzido com instâncias P4d aumenta a produtividade, ajudando desenvolvedores a se concentrarem em sua missão principal de desenvolver inteligência de ML em aplicações comerciais.

Os desenvolvedores podem escalar perfeitamente para até milhares de GPUs com EC2 UltraClusters de instâncias P4d. Alto throughput, redes de baixa latência com suporte para redes de instância de 400 Gbps, Elastic Fabric Adapter (EFA) e tecnologia GPUDirect RDMA ajudam a treinar rapidamente modelos de ML usando técnicas de aumento da escala horizontal/distribuídas. O EFA usa a NVIDIA Collective Communications Library (NCCL) para escalar para milhares de GPUs, e a tecnologia GPUDirect RDMA permite a comunicação de GPU para GPU de baixa latência entre instâncias P4d.

As instâncias P4d oferecem custo até 60% inferior para treinar modelos de ML em comparação com as instâncias P3. Além disso, as instâncias P4d estão disponíveis para compra como instâncias spot. As instâncias spot utilizam a capacidade de instâncias do EC2 não utilizadas e podem reduzir substancialmente os custos do EC2 em até 90% em relação aos preços sob demanda. Com a diminuição do custo de treinamento de ML com instâncias P4d, os orçamentos podem ser realocados para desenvolver mais inteligência de ML em aplicações comerciais.

As AMIs de deep learning da AWS (DLAMI) e os contêineres de deep learning da Amazon facilitam a implantação de ambientes de DL P4d em minutos, pois contêm as bibliotecas e ferramentas de framework de DL necessárias. Também é possível adicionar mais facilmente suas próprias bibliotecas e ferramentas a essas imagens. As instâncias P4d são compatíveis com frameworks de ML mais usados, como TensorFlow, PyTorch e MXNet. Além disso, as instâncias P4d são compatíveis com os principais serviços da AWS para ML, gerenciamento e orquestração, como Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch e AWS ParallelCluster.

Recursos

As GPUs NVIDIA A100 Tensor Core oferecem aceleração sem precedentes em escala para ML e HPC. A terceira geração de Tensor Cores do NVIDIA A100 agiliza todas as workloads de precisão, acelerando o tempo de obtenção de insights e de comercialização. Cada GPU A100 oferece performance de computação 2,5 vezes superior em comparação com a GPU V100 da geração anterior e vem com 40 GB de memória de GPU HBM2 (em instâncias P4d) ou 80 GB de HBM2e (em instâncias P4de) de alta performance. Uma memória de GPU maior beneficia em particular as workloads em treinamento sobre grandes conjuntos de dados de dados de alta resolução. As GPUs NVIDIA A100 utilizam throughput de interconexão da GPU NVSwitch para que cada GPU possa se comunicar com todas as outras GPUs na mesma instância com o mesmo throughput bidirecional de 600 GB/s e com latência de salto único.

As instâncias P4d oferecem redes de 400 Gbps para ajudar os clientes a aumentar a escala horizontalmente de suas workloads distribuídas, como treinamento de vários nós de forma mais eficiente, com redes de alto throughput entre instâncias P4d, bem como entre uma instância P4d e serviços de armazenamento, como o Amazon Simple Storage Service (Amazon S3) e FSx para Lustre. O EFA é uma interface de rede personalizada criada pela AWS para ajudar a escalar aplicações de ML e HPC para milhares de GPUs. Para reduzir ainda mais a latência, o EFA é acoplado ao NVIDIA GPUDirect RDMA para habilitar a comunicação de GPU para GPU de baixa latência entre servidores com desvio de sistema operacional.

Alcance um alto throughput em escala de petabytes, armazenamento de baixa latência com FSx para Lustre ou armazenamento com bom custo-benefício praticamente ilimitado com o Amazon S3 a velocidades de 400 Gbps. Para workloads que precisam acessar rapidamente grandes conjuntos de dados, cada instância P4d também inclui armazenamento SSD baseado em NVMe de 8 TB com throughput de leitura de 16 GB/s.

As instâncias P4d são desenvolvidas no AWS Nitro System, que é uma coleção complexa de blocos de criação que transferem muitas das funções tradicionais de virtualização para hardware e software dedicados para entregar altos níveis de performance, disponibilidade e segurança, além de reduzir a sobrecarga da virtualização.

Depoimentos de clientes

Aqui estão alguns exemplos de como clientes e parceiros alcançaram suas metas de negócios com as instâncias P4 do Amazon EC2.

Toyota Research Institute (TRI)

Fundado em 2015, o Toyota Research Institute (TRI) está trabalhando para desenvolver direção automatizada, robótica e outras tecnologias de amplificação humana para a Toyota.

“Na TRI, estamos trabalhando para construir um futuro em que todos tenham a liberdade de se movimentar. As instâncias P3 da geração anterior nos ajudaram a reduzir nosso tempo de treinamento de modelos de ML de dias para horas, e estamos ansiosos para utilizar instâncias P4d, pois a memória adicional de GPU e os formatos flutuantes mais eficientes permitirão que nossa equipe de aprendizado de máquina treine com modelos mais complexos em uma velocidade ainda mais rápida. “

Mike Garrison, líder técnico de engenharia de Infraestrutura do TRI

ANÚNCIO TRIPLO

“Na TRI-AD, estamos trabalhando para construir um futuro em que todos tenham a liberdade de se movimentar e explorar, com foco na redução de lesões e mortes em veículos usando direção adaptável e cidade inteligente. Com o uso de instâncias P4d do Amazon EC2, conseguimos reduzir nosso tempo de treinamento para reconhecimento de objetos em 40% em comparação com instâncias de GPU da geração anterior sem nenhuma modificação nos códigos existentes. “

Junya Inada, diretora de direção automatizada (reconhecimento) do TRI-AD

ANÚNCIO TRIPLO

“Com o uso de instâncias P4d do Amazon EC2, conseguimos reduzir instantaneamente nosso custo de treinamento em comparação com as instâncias de GPU da geração anterior, o que nos permitiu aumentar o número de equipes trabalhando no treinamento de modelos. As melhorias de rede no P4d nos permitiram escalar com eficiência para dezenas de instâncias, o que nos deu uma agilidade significativa para otimizar, retreinar e implantar modelos rapidamente em carros de teste ou ambientes de simulação para testes adicionais. “

Jack Yan, diretor sênior de engenharia de infraestrutura do TRI-AD

GE Healthcare

A GE Healthcare é líder global em tecnologia médica e inova em soluções digitais. A GE Healthcare permite que os profissionais de saúde tomem decisões mais rápidas e embasadas usando dispositivos inteligentes, análise de dados, aplicações e serviços, com o suporte de sua plataforma de inteligência Edison.

“Na GE Healthcare, fornecemos aos médicos ferramentas que os ajudam a agregar dados, aplicar IA e análises a esses dados e descobrir insights que melhoram os resultados dos pacientes, impulsionam a eficiência e eliminam erros. Nossos dispositivos de geração de imagiologia médica geram grandes quantidades de dados que precisam ser processados por cientistas de dados. Com os clusters de GPU anteriores, levaria dias para treinar modelos complexos de IA, como GANs progressivos, para simulações e visualização dos resultados. A utilização das novas instâncias P4d reduziu o tempo de processamento de dias para horas. Observamos uma velocidade duas a três vezes maior em modelos de treinamento com vários tamanhos de imagem, ao mesmo tempo em que obtivemos melhor desempenho com maior tamanho de lote e maior produtividade com um ciclo de desenvolvimento de modelo mais rápido. “

Karley Yoder, vice-presidente e gerente geral de inteligência artificial da GM Healthcare

HEAVY.AI

A HEAVY.AI é pioneira em análise acelerada. A plataforma HEAVY.AI é usada nas empresas e no governo para encontrar insights em dados além dos limites da ferramenta de análise convencional.

“Na HEAVY.AI, estamos trabalhando para construir um futuro em que a ciência e a análise de dados converjam para quebrar e fundir silos de dados. Os clientes estão utilizando enormes quantidades de dados capazes de incluir localização e hora para criar uma imagem completa não apenas do que está acontecendo, mas quando e onde, por meio da visualização detalhada de dados espaço-temporais. Nossa tecnologia permite ver tanto a floresta como as árvores. Usando as instâncias Amazon EC2 P4d, fomos capazes de reduzir o custo de implantação de nossa plataforma significativamente em comparação com as instâncias de GPU da geração anterior, o que nos permitiu escalar conjuntos de dados massivos com bom custo-benefício. As melhorias de rede no A100 aumentaram nossa eficiência na forma como escalamos para bilhões de linhas de dados e permitiram que nossos clientes obtivessem insights ainda mais rapidamente. “

Ray Falcione, vice-presidente de setor público dos EUA da HEAVY.AI

Zenotech Ltd.

A Zenotech Ltd está redefinindo a engenharia on-line usando nuvens de HPC que oferecem modelos de licenciamento sob demanda, juntamente com benefícios de performance extremos utilizando as GPUs.

“Na Zenotech, estamos desenvolvendo as ferramentas para permitir que os designers criem produtos mais eficientes e ecologicamente corretos. Trabalhamos em vários setores, e nossas ferramentas oferecem melhor insight da performance do produto por meio do uso de simulação em grande escala. O uso das instâncias P4d da AWS nos permite executar simulações 3,5 vezes mais rápido em comparação com a geração anterior de GPUs. Essa aceleração reduz significativamente nosso tempo de resolução, permitindo que nossos clientes coloquem projetos no mercado mais rapidamente ou façam simulações de maior fidelidade do que era possível anteriormente. “

Jamil Appa, diretor e cofundador da Zenotech

Aon

A Aon é uma empresa líder global de serviços profissionais que oferece uma ampla variedade de soluções de risco, aposentadoria e saúde. A Aon PathWise é uma solução de gerenciamento de risco de HPC escalável e baseada em GPU que seguradoras e resseguradoras, bancos e fundos de pensão podem usar para enfrentar os principais desafios atuais, como testes de estratégia de hedge, previsão regulatória e econômica e orçamento.

“No PathWise Solutions Group LLC, nosso produto permite que seguradoras, resseguradoras e fundos de pensão acessem a tecnologia de última geração para resolver rapidamente os principais desafios atuais de seguros, como aprendizado de máquina, testes de estratégia de hedge, relatórios regulatórios e financeiros, planejamento de negócios e previsão econômica, além de desenvolvimento e preços de novos produtos. Usando as instâncias P4d do Amazon EC2, podemos oferecer melhorias surpreendentes na velocidade de cálculos de precisão simples e dupla em comparação às instâncias de GPU da geração anterior para cálculos mais exigentes, permitindo que clientes façam uma nova gama de cálculos e previsões pela primeira vez. A velocidade é importante e continuamos a oferecer valor significativo e a tecnologia mais recente aos nossos clientes, graças às novas instâncias da AWS. “

Van Beach, líder global de soluções de vida do Aon Pathwise Strategy and Technology Group

Rad AI

Composta por especialistas em radiologia e IA, a Rad AI cria produtos que maximizam a produtividade do radiologista, tornando os cuidados de saúde mais acessíveis e melhorando os resultados dos pacientes. Leia o estudo de caso para saber mais

“Na Rad AI, nossa missão é aumentar o acesso e a qualidade dos cuidados de saúde para todos. Com foco no fluxo de trabalho de imagiologia médica, a Rad AI poupa tempo dos radiologistas, reduz o esgotamento profissional e aumenta a precisão. Usamos IA para automatizar fluxos de trabalho e ajudar a agilizar os relatórios de radiologia. Com as novas instâncias EC2 P4d, observamos uma inferência mais rápida e a capacidade de treinar modelos 2,4 vezes mais rápido, com maior precisão do que nas instâncias P3 da geração anterior. Isso permite um diagnóstico mais rápido e preciso e maior acesso a serviços de radiologia de alta qualidade fornecidos por nossos clientes nos EUA. “

Doktor Gurson, cofundador da Rad AI

Detalhes do produto

Instance Size	vCPUs	Instance Memory (GiB)	GPU – A100	GPU memory	Network Bandwidth (Gbps)	GPUDirect RDMA	GPU Peer to Peer	Instance Storage (GB)	EBS Bandwidth (Gbps)
p4d.24xlarge	96	1.152	8	320GB HBM2	ENA e EFA de 400	Sim	NVSwitch de 600 GB/s	8 x 1000 NVMe SSD	19
p4de.24xlarge	96	1.152	8	640 GB HBM2e	ENA e EFA de 400	Sim	NVSwitch de 600 GB/s	8 x 1000 NVMe SSD	19

Conceitos básicos de instâncias P4d para ML

O Amazon SageMaker é um serviço totalmente gerenciado para criar, treinar e implantar modelos de ML. Quando usado em conjunto com as instâncias P4d, os clientes podem escalar facilmente para dezenas, centenas ou milhares de GPUs a fim de treinar rapidamente um modelo em qualquer escala, sem se preocupar com a configuração de clusters e pipelines de dados.

A DLAMI fornece aos profissionais e pesquisadores de ML a infraestrutura e as ferramentas para acelerar o DL na nuvem, em qualquer escala. Os contêineres de aprendizado profundo são imagens do Docker pré-instaladas com estruturas DL para facilitar a implantação rápida de ambientes de ML personalizados, permitindo que você ignore o complicado processo de criar e otimizar seus ambientes do zero.

Se você preferir gerenciar suas próprias cargas de trabalho em contêineres por meio de serviços de orquestração de contêineres, você pode implantar instâncias P4d com o Amazon EKS ou o Amazon ECS.

Conceitos básicos de instâncias P4d para HPC

As instâncias P4d são ideais para executar simulações de engenharia, finanças computacionais, análise sísmica, modelagem molecular, genômica, renderização e outras workloads de HPC baseadas em GPUs. Geralmente, os aplicativos de HPC exigem redes de alta performance, armazenamento rápido, grandes quantidades de memória, recursos elevados de computação ou todos esses itens. As instâncias P4d oferecem suporte EFA, possibilitando que aplicações de HPC usem a Message Passing Interface (MPI) para escalar milhares de GPUs. O AWS Batch e o AWS ParallelCluster ajudam desenvolvedores de HPC a desenvolver e escalar rapidamente aplicações de HPC distribuídas.

Saiba mais

Publicações e artigos de blog

GPU-Equipped EC2 P4 Instances for Machine Learning and HPC

por Jeff Barr – 2 de novembro de 2020

Leia o blog

Amazon EC2 P4d instances deep dive

por Amr Ragab – 2 de novembro de 2020

Leia o blog

Recursos adicionais

Começar a usar a AWS

Etapa 1: Cadastre-se para abrir uma conta da AWS

Obtenha acesso instantâneo ao nível gratuito da AWS.

Saiba mais

Etapa 2: Aprenda com tutoriais de 10 minutos

Explore e aprenda com tutoriais simples.

Saiba mais

Etapa 3: Comece a criar com a AWS

Comece a criar com guias detalhados que ajudam a iniciar seu projeto da AWS.

Saiba mais

Instâncias P4 do Amazon EC2

Por que usar as instâncias P4 do Amazon EC2?

Anúncio das novas instâncias P4d do Amazon EC2

Benefícios

Recursos

Depoimentos de clientes

Toyota Research Institute (TRI)

ANÚNCIO TRIPLO

ANÚNCIO TRIPLO

GE Healthcare

HEAVY.AI

Zenotech Ltd.

Aon

Rad AI

Detalhes do produto

Conceitos básicos de instâncias P4d para ML

Conceitos básicos de instâncias P4d para HPC

Publicações e artigos de blog

GPU-Equipped EC2 P4 Instances for Machine Learning and HPC

Amazon EC2 P4d instances deep dive

Recursos adicionais

Amazon EC2 UltraClusters of P4d instances

Amazon EC2 P4d vs P3: Natural Language Processing

Amazon EC2 P4d vs P3: Speech to text

Amazon EC2 P4d vs P3: Image Classification

Começar a usar a AWS

Etapa 1: Cadastre-se para abrir uma conta da AWS

Etapa 2: Aprenda com tutoriais de 10 minutos

Etapa 3: Comece a criar com a AWS

Aprenda

Recursos

Desenvolvedores

Ajuda

Instâncias P4 do Amazon EC2

Por que usar as instâncias P4 do Amazon EC2?

Anúncio das novas instâncias P4d do Amazon EC2

Benefícios

Reduzir o tempo de treinamento de ML de dias para minutos

Executar o treinamento de ML de vários nós mais complexo com alta eficiência

Reduzir os custos de infraestrutura para treinamento de ML e HPC

Começar e escalar facilmente com os serviços da AWS

Recursos

Baseadas em GPUs NVIDIA A100 Tensor Core

Rede de alta performance

Armazenamento com alto throughput e baixa latência

Desenvolvido no AWS Nitro System

Depoimentos de clientes

Toyota Research Institute (TRI)

ANÚNCIO TRIPLO

ANÚNCIO TRIPLO

GE Healthcare

HEAVY.AI

Zenotech Ltd.

Aon

Rad AI

Detalhes do produto

Conceitos básicos de instâncias P4d para ML

Como usar o Amazon SageMaker

Usar DLAMIs ou contêineres de deep learning

Como usar o Amazon EKS ou o Amazon ECS

Conceitos básicos de instâncias P4d para HPC

Publicações e artigos de blog

GPU-Equipped EC2 P4 Instances for Machine Learning and HPC

Amazon EC2 P4d instances deep dive

Recursos adicionais

Amazon EC2 UltraClusters of P4d instances

Amazon EC2 P4d vs P3: Natural Language Processing

Amazon EC2 P4d vs P3: Speech to text

Amazon EC2 P4d vs P3: Image Classification

Começar a usar a AWS

Etapa 1: Cadastre-se para abrir uma conta da AWS

Etapa 2: Aprenda com tutoriais de 10 minutos

Etapa 3: Comece a criar com a AWS

Aprenda

Recursos

Desenvolvedores

Ajuda