Chips de IA da AWS

AWS Neuron

SDK para otimizar a IA e o aprendizado profundo no AWS Trainium e no AWS Inferentia

Comece a usar o AWS Neuron

O que é o AWS Neuron?

O AWS Neuron é um kit para que desenvolvedores executem workloads de trabalho de aprendizado profundo e IA generativa no AWS Trainium e no AWS Inferentia. Desenvolvido em uma base de código aberto, o Neuron permite que os desenvolvedores criem, implantem e explorem de forma nativa com estruturas PyTorch e JAX e com bibliotecas de ML, como HuggingFace, vLLM, PyTorch Lightning e outras, sem modificar seu código. A solução inclui um compilador, um runtime, bibliotecas de treinamento e de inferência e ferramentas de desenvolvedor para monitoramento, criação de perfil e depuração. O Neuron oferece suporte ao ciclo de vida completo de desenvolvimento de machine learning, incluindo a criação e a implementação de modelos de aprendizado profundo e IA, otimização para alcançar o melhor desempenho e o menor custo e obtenção de insights mais detalhados sobre o comportamento dos modelos.

O Neuron permite experimentação rápida, treinamento em escala de produção de modelos de ponta, otimização de desempenho de baixo nível por meio da Neuron Kernel Interface (NKI) para kernels personalizados, implantação de inferência com custo otimizado para workloads de IA agêntica e aprendizado por reforço e criação de perfil e depuração abrangentes com o Neuron Explorer.

An abstract illustration of a human head silhouette filled with colorful geometric data patterns and lines, representing artificial intelligence and machine learning concepts.

Desenvolvido para pesquisadores

O Neuron permite uma pesquisa rápida de IA executando o código PyTorch nativo inalterado no Trainium. Os pesquisadores podem testar novas ideias e iterar rapidamente graças ao suporte ao modo Eager do PyTorch. O escalonamento é fácil com as bibliotecas distribuídas do PyTorch como FSDP, DDP e DTensor, para fragmentar modelos em chips ou escalar para vários nós. O Neuron é compatível com torch.compile, e bibliotecas como o Transformers da HuggingFace e TorchTitan agora funcionam diretamente no Trainium sem modificação. Além disso, os desenvolvedores de JAX podem utilizar o Neuron para desenvolver, otimizar e implantar facilmente seus modelos no Inferentia e no Trainium.

Saiba mais

Abstract digital illustration featuring concentric rings of pink brick-like segments on a dark blue background, representing AWS security, identity, and compliance concepts.

Desenvolvido para produtividade

O Neuron otimiza a economia de inferência para workloads de IA agêntica e aprendizado por reforço. As APIs padrão do vLLM V1 funcionam no Trainium e Inferentia com alto desempenho pronto para uso com recursos como paralelismo especializado, inferência desagregada e decodificação especulativa, além de kernels otimizados da Neuron Kernel Library para maximizar a economia de tokens em grande escala.  Os desenvolvedores de ML podem treinar com HuggingFace Optimum Neuron, PyTorch Lightning e TorchTitan e, em seguida, implantar inferência com APIs vLLM padrão.

A vibrant abstract background featuring a pattern of colorful rectangular shapes arranged in horizontal rows, with various shades of blue, red, purple, pink, and yellow.

Desenvolvido para inovação

A criação de modelos de IA exige inovação rápida e otimização do desempenho. Embora estruturas padrão como o PyTorch facilitem a escalabilidade da experimentação, ultrapassar os limites de desempenho exige a otimização de toda a pilha (chip, servidor e UltraServer). O Neuron fornece aos engenheiros de desempenho de ML acesso incomparável aos chips de IA da AWS por meio da Neuron Kernel Interface (NKI), insights mais profundos por meio do Neuron Explorer e nossa biblioteca de kernel otimizada chamada Neuron Kernel Library (NKILib). A NKI fornece APIs para alocação de memória, agendamento de execução e acesso direto ao Trainium ISA, permitindo o controle sobre a programação em nível de instrução. O NKI Compiler é um código aberto, desenvolvido em MLIR e fornece aos desenvolvedores visibilidade sobre o pipeline completo do compilador. A biblioteca Neuron Kernel de código aberto fornece implementações otimizadas com código-fonte, documentação e benchmarks. O Neuron Explorer fornece um conjunto unificado de ferramentas que orienta os desenvolvedores em sua jornada de otimização de desempenho e depuração. Os engenheiros de desempenho podem rastrear a execução desde o código-fonte até as operações de hardware, criar perfis de aplicações distribuídas e de nó único e receber insights baseados em IA e recomendações acionáveis para otimizações de kernel e melhorias de desempenho.

Abstract illustration featuring various geometric shapes, such as triangles, circles, rectangles, and grids, in gradient pastel yellow and purple tones on a lavender background. Arrows and dotted lines add motion and connectivity, suitable for themes of application integration and creative design.

Desenvolvido para código aberto

A inovação da IA prospera em comunidades abertas onde os desenvolvedores podem inspecionar, modificar e contribuir. O Neuron está comprometido com a comunidade de código aberto e em promover inovação. Enquanto movemos mais partes da nossa pilha para o código aberto, as integrações NKI Compiler, Neuron Kernel Driver, Neuron Kernel Library, NxD Inference, Neuron Explorer e PyTorch, JAX e vLLM estão disponíveis hoje totalmente em código aberto. As bibliotecas e ferramentas de código aberto permitem que os desenvolvedores inspecionem as implementações do compilador, contribuam com otimizações e adaptem o código do kernel sem barreiras. Venha criar conosco.

An abstract background featuring flowing, multicolored waves beneath a variety of geometric shapes (such as circles, rectangles, hexagons, and triangles) on a dark backdrop. The image visually suggests data visualization, analytics, or machine learning concepts.

Conheça o Neuron

O Neuron fornece integração nativa com o PyTorch, permitindo que pesquisadores e desenvolvedores de ML executem o código existente inalterado no Trainium. As APIs padrão, incluindo FSDP, DDP e DTensor, funcionam perfeitamente para treinamento distribuído em configurações de vários nós. Bibliotecas de ML conhecidas como TorchTitan, HuggingFace Optimum Neuron, PyTorch Lightning e outras são executadas diretamente com modificações mínimas. Treine modelos com fluxos de trabalho e ferramentas familiares, do pré-treinamento ao pós-treinamento com aprendizado por reforço, enquanto aproveita as vantagens de desempenho e custo do Trainium para treinamento em escala de experimentação e produção.

O Neuron permite a implantação de inferência de produção com estruturas e APIs padrão em Trainium e Inferentia. A integração do vLLM com APIs padrão oferece serviços de alto desempenho com kernels otimizados da Neuron Kernel Library. Recursos avançados, incluindo paralelismo especializado, inferência desagregada e decodificação especulativa maximizam os tokens por segundo e minimizam o custo por token. Implemente workloads de IA agêntica e aprendizado por reforço em grande escala com otimizações de desempenho prontas para uso.

Para engenheiros de desempenho que buscam a máxima eficiência de hardware, o Neuron fornece controle completo por meio da Neuron Kernel Interface (NKI), com acesso direto ao conjunto de instruções NeuronISA, alocação de memória e agendamento de execução. Os desenvolvedores podem criar novas operações não disponíveis em estruturas padrão e otimizar o código crítico de desempenho com kernels personalizados. O compilador NKI de código aberto, desenvolvido em MLIR, fornece transparência nos processos de compilação. A Neuron Kernel Library oferece kernels otimizados e prontos para produção com código-fonte, documentação e benchmarks completos.

O Neuron Explorer fornece um conjunto unificado de ferramentas que orienta os desenvolvedores em sua jornada de otimização de desempenho e depuração. Ao consolidar a criação de perfis, a depuração, a implementação de otimizações e a validação de melhorias em um único ambiente, o Neuron Explorer elimina o tempo perdido em ferramentas fragmentadas. O perfil hierárquico com vinculação de código para PyTorch, JAX e NKI rastreia a execução do código-fonte às operações de hardware. As recomendações baseadas em IA analisam perfis para identificar gargalos e fornecer insights acionáveis para estratégias de fragmentação e otimizações de kernel. A interface do usuário é de código aberto no GitHub.

O Neuron fornece recursos abrangentes de monitoramento e observabilidade que permitem que desenvolvedores de ML e equipes de MLOps mantenham a excelência operacional para implantações de produção. A integração nativa do Amazon CloudWatch permite o monitoramento centralizado em toda a infraestrutura de ML, com suporte para aplicações em contêineres no Kubernetes e no Amazon EKS. As integrações de plataformas de parceiros com ferramentas como o Datadog ampliam a observabilidade com monitoramento, registro em log e alertas unificados. O Neuron fornece utilitários, incluindo neuron-top para monitoramento em tempo real, Neuron Monitor para coleta de métricas, neuron-ls para listagem de dispositivos e Neuron Sysfs para informações detalhadas do sistema.

O Neuron simplifica a implantação para desenvolvedores de ML e equipes de MLOps com ambientes pré-configurados e ferramentas de infraestrutura. As AMIs do Neuron Deep Learning (DLAMIs) e os Contêineres de Aprendizado Profundo (DLCs) vêm prontos com a pilha de software Neuron, estruturas populares e bibliotecas essenciais. Para implantações do Kubernetes, o plug-in de dispositivo do Neuron gerencia a alocação de recursos, a extensão de agendador do Neuron fornece posicionamento inteligente da workload e o driver de alocação dinâmica de recursos (DRA) abstrai a complexidade da topologia de hardware com seleção intuitiva de recursos com base no tamanho. Os charts do Helm simplificam a orquestração para implantações em contêineres.

Desenvolva com Neuron

Uso das AMIs de deep learning da AWS

As AMIs de deep learning da AWS (DLAMI) no Neuron (Neuron DLAMIs) são configuradas previamente com o Neuron SDK, estruturas populares e bibliotecas úteis, permitindo que você comece rapidamente o treinamento e a execução de inferência no AWS Inferentia. As Neuron DLAMIs simplificam seu fluxo de trabalho e otimiza a performance, eliminando as complexidades de configuração para que você possa se concentrar no desenvolvimento e na implantação de modelos de IA. Comece a usar as Neuron DLAMIs.

Conceitos básicos

Uso de contêineres de aprendizado profundo

Realize a implantação rápida de modelos usando os contêineres de aprendizado profundo do AWS Neuron (Neuron DLCs) configurados previamente, com estruturas otimizadas para o Trainium e o Inferentia. Para soluções personalizadas, desenvolva seus próprios contêineres e faça uso de recursos do Kubernetes, como o plug-in de dispositivo do Neuron, a extensão de agendador do Neuron e os charts do Helm. Realize uma integração contínua com os serviços da AWS como Amazon EKS, AWS Batch e Amazon ECS, para implantações escaláveis. Comece a usar os DLCs do Neuron.

Conceitos básicos

Uso da Hugging Face

O Optimum Neuron conecta o Transformers da Hugging Face e o SDK do AWS Neuron, fornecendo APIs padrão da Hugging Face para o Trainium e o Inferentia. Ele oferece soluções tanto para treinamento quanto para inferência, incluindo suporte para treinamento e implantação de modelos em grande escala para fluxos de trabalho de IA. Com suporte ao Amazon SageMaker e aos contêineres de aprendizado profundo configurados previamente, o Optimum Neuron simplifica o uso do Trainium e do Inferentia para machine learning. Essa integração permite que os desenvolvedores trabalhem com interfaces familiares da Hugging Face enquanto aproveitam o Trainium e o Inferentia para seus projetos baseados em transformadores. Comece a usar o Optimum Neuron da Hugging Face.

Conceitos básicos

Uso do Amazon SageMaker JumpStart

Você pode usar o Amazon SageMaker JumpStart para treinar e implantar modelos usando o Neuron. O JumpStart fornece suporte para ajuste e implantação de modelos conhecidos, como a família de modelos Llama da Meta. Comece a usar o SageMaker JumpStart.

Conceitos básicos

Próximas etapas

Conceitos básicos

Comece a usar o Amazon SageMaker JumpStart

Saiba mais

Conceitos básicos

Comece a usar as DLAMIs do Neuron no Amazon Elastic Compute Cloud (Amazon EC2)

Saiba mais

AWS Neuron

O que é o AWS Neuron?

Desenvolvido para pesquisadores

Desenvolvido para produtividade

Desenvolvido para inovação

Desenvolvido para código aberto

Conheça o Neuron

Desenvolva com Neuron

Uso das AMIs de deep learning da AWS

Uso de contêineres de aprendizado profundo

Uso da Hugging Face

Uso do Amazon SageMaker JumpStart

Próximas etapas

Comece a usar o Amazon SageMaker JumpStart

Comece a usar as DLAMIs do Neuron no Amazon Elastic Compute Cloud (Amazon EC2)

Aprenda

Recursos

Desenvolvedores

Ajuda

AWS Neuron

O que é o AWS Neuron?

Desenvolvido para pesquisadores

Desenvolvido para produtividade

Desenvolvido para inovação

Desenvolvido para código aberto

Conheça o Neuron

Treinamento e inferência com Neuron

Neuron Kernel Interface (NKI)

Neuron Explorer

Observabilidade e monitoramento

Implantação e infraestrutura

Desenvolva com Neuron

Uso das AMIs de deep learning da AWS

Uso de contêineres de aprendizado profundo

Uso da Hugging Face

Uso do Amazon SageMaker JumpStart

Próximas etapas

Comece a usar o Amazon SageMaker JumpStart

Comece a usar as DLAMIs do Neuron no Amazon Elastic Compute Cloud (Amazon EC2)

Aprenda

Recursos

Desenvolvedores

Ajuda