- Produto›
- Machine learning›
- AWS Neuron
AWS Neuron
SDK para otimizar a IA e o aprendizado profundo no AWS Trainium e no AWS Inferentia
O que é o AWS Neuron?
O AWS Neuron é um kit para que desenvolvedores executem workloads de trabalho de aprendizado profundo e IA generativa no AWS Trainium e no AWS Inferentia. Desenvolvido em uma base de código aberto, o Neuron permite que os desenvolvedores criem, implantem e explorem de forma nativa com estruturas PyTorch e JAX e com bibliotecas de ML, como HuggingFace, vLLM, PyTorch Lightning e outras, sem modificar seu código. A solução inclui um compilador, um runtime, bibliotecas de treinamento e de inferência e ferramentas de desenvolvedor para monitoramento, criação de perfil e depuração. O Neuron oferece suporte ao ciclo de vida completo de desenvolvimento de machine learning, incluindo a criação e a implementação de modelos de aprendizado profundo e IA, otimização para alcançar o melhor desempenho e o menor custo e obtenção de insights mais detalhados sobre o comportamento dos modelos.
O Neuron permite experimentação rápida, treinamento em escala de produção de modelos de ponta, otimização de desempenho de baixo nível por meio da Neuron Kernel Interface (NKI) para kernels personalizados, implantação de inferência com custo otimizado para workloads de IA agêntica e aprendizado por reforço e criação de perfil e depuração abrangentes com o Neuron Explorer.
Desenvolvido para pesquisadores
O Neuron permite uma pesquisa rápida de IA executando o código PyTorch nativo inalterado no Trainium. Os pesquisadores podem testar novas ideias e iterar rapidamente graças ao suporte ao modo Eager do PyTorch. O escalonamento é fácil com as bibliotecas distribuídas do PyTorch como FSDP, DDP e DTensor, para fragmentar modelos em chips ou escalar para vários nós. O Neuron é compatível com torch.compile, e bibliotecas como o Transformers da HuggingFace e TorchTitan agora funcionam diretamente no Trainium sem modificação. Além disso, os desenvolvedores de JAX podem utilizar o Neuron para desenvolver, otimizar e implantar facilmente seus modelos no Inferentia e no Trainium.
Desenvolvido para produtividade
O Neuron otimiza a economia de inferência para workloads de IA agêntica e aprendizado por reforço. As APIs padrão do vLLM V1 funcionam no Trainium e Inferentia com alto desempenho pronto para uso com recursos como paralelismo especializado, inferência desagregada e decodificação especulativa, além de kernels otimizados da Neuron Kernel Library para maximizar a economia de tokens em grande escala. Os desenvolvedores de ML podem treinar com HuggingFace Optimum Neuron, PyTorch Lightning e TorchTitan e, em seguida, implantar inferência com APIs vLLM padrão.
Desenvolvido para inovação
A criação de modelos de IA exige inovação rápida e otimização do desempenho. Embora estruturas padrão como o PyTorch facilitem a escalabilidade da experimentação, ultrapassar os limites de desempenho exige a otimização de toda a pilha (chip, servidor e UltraServer). O Neuron fornece aos engenheiros de desempenho de ML acesso incomparável aos chips de IA da AWS por meio da Neuron Kernel Interface (NKI), insights mais profundos por meio do Neuron Explorer e nossa biblioteca de kernel otimizada chamada Neuron Kernel Library (NKILib). A NKI fornece APIs para alocação de memória, agendamento de execução e acesso direto ao Trainium ISA, permitindo o controle sobre a programação em nível de instrução. O NKI Compiler é um código aberto, desenvolvido em MLIR e fornece aos desenvolvedores visibilidade sobre o pipeline completo do compilador. A biblioteca Neuron Kernel de código aberto fornece implementações otimizadas com código-fonte, documentação e benchmarks. O Neuron Explorer fornece um conjunto unificado de ferramentas que orienta os desenvolvedores em sua jornada de otimização de desempenho e depuração. Os engenheiros de desempenho podem rastrear a execução desde o código-fonte até as operações de hardware, criar perfis de aplicações distribuídas e de nó único e receber insights baseados em IA e recomendações acionáveis para otimizações de kernel e melhorias de desempenho.
Desenvolvido para código aberto
A inovação da IA prospera em comunidades abertas onde os desenvolvedores podem inspecionar, modificar e contribuir. O Neuron está comprometido com a comunidade de código aberto e em promover inovação. Enquanto movemos mais partes da nossa pilha para o código aberto, as integrações NKI Compiler, Neuron Kernel Driver, Neuron Kernel Library, NxD Inference, Neuron Explorer e PyTorch, JAX e vLLM estão disponíveis hoje totalmente em código aberto. As bibliotecas e ferramentas de código aberto permitem que os desenvolvedores inspecionem as implementações do compilador, contribuam com otimizações e adaptem o código do kernel sem barreiras. Venha criar conosco.
Conheça o Neuron
O Neuron fornece integração nativa com o PyTorch, permitindo que pesquisadores e desenvolvedores de ML executem o código existente inalterado no Trainium. As APIs padrão, incluindo FSDP, DDP e DTensor, funcionam perfeitamente para treinamento distribuído em configurações de vários nós. Bibliotecas de ML conhecidas como TorchTitan, HuggingFace Optimum Neuron, PyTorch Lightning e outras são executadas diretamente com modificações mínimas. Treine modelos com fluxos de trabalho e ferramentas familiares, do pré-treinamento ao pós-treinamento com aprendizado por reforço, enquanto aproveita as vantagens de desempenho e custo do Trainium para treinamento em escala de experimentação e produção.
O Neuron permite a implantação de inferência de produção com estruturas e APIs padrão em Trainium e Inferentia. A integração do vLLM com APIs padrão oferece serviços de alto desempenho com kernels otimizados da Neuron Kernel Library. Recursos avançados, incluindo paralelismo especializado, inferência desagregada e decodificação especulativa maximizam os tokens por segundo e minimizam o custo por token. Implemente workloads de IA agêntica e aprendizado por reforço em grande escala com otimizações de desempenho prontas para uso.
Para engenheiros de desempenho que buscam a máxima eficiência de hardware, o Neuron fornece controle completo por meio da Neuron Kernel Interface (NKI), com acesso direto ao conjunto de instruções NeuronISA, alocação de memória e agendamento de execução. Os desenvolvedores podem criar novas operações não disponíveis em estruturas padrão e otimizar o código crítico de desempenho com kernels personalizados. O compilador NKI de código aberto, desenvolvido em MLIR, fornece transparência nos processos de compilação. A Neuron Kernel Library oferece kernels otimizados e prontos para produção com código-fonte, documentação e benchmarks completos.
O Neuron Explorer fornece um conjunto unificado de ferramentas que orienta os desenvolvedores em sua jornada de otimização de desempenho e depuração. Ao consolidar a criação de perfis, a depuração, a implementação de otimizações e a validação de melhorias em um único ambiente, o Neuron Explorer elimina o tempo perdido em ferramentas fragmentadas. O perfil hierárquico com vinculação de código para PyTorch, JAX e NKI rastreia a execução do código-fonte às operações de hardware. As recomendações baseadas em IA analisam perfis para identificar gargalos e fornecer insights acionáveis para estratégias de fragmentação e otimizações de kernel. A interface do usuário é de código aberto no GitHub.
O Neuron fornece recursos abrangentes de monitoramento e observabilidade que permitem que desenvolvedores de ML e equipes de MLOps mantenham a excelência operacional para implantações de produção. A integração nativa do Amazon CloudWatch permite o monitoramento centralizado em toda a infraestrutura de ML, com suporte para aplicações em contêineres no Kubernetes e no Amazon EKS. As integrações de plataformas de parceiros com ferramentas como o Datadog ampliam a observabilidade com monitoramento, registro em log e alertas unificados. O Neuron fornece utilitários, incluindo neuron-top para monitoramento em tempo real, Neuron Monitor para coleta de métricas, neuron-ls para listagem de dispositivos e Neuron Sysfs para informações detalhadas do sistema.
O Neuron simplifica a implantação para desenvolvedores de ML e equipes de MLOps com ambientes pré-configurados e ferramentas de infraestrutura. As AMIs do Neuron Deep Learning (DLAMIs) e os Contêineres de Aprendizado Profundo (DLCs) vêm prontos com a pilha de software Neuron, estruturas populares e bibliotecas essenciais. Para implantações do Kubernetes, o plug-in de dispositivo do Neuron gerencia a alocação de recursos, a extensão de agendador do Neuron fornece posicionamento inteligente da workload e o driver de alocação dinâmica de recursos (DRA) abstrai a complexidade da topologia de hardware com seleção intuitiva de recursos com base no tamanho. Os charts do Helm simplificam a orquestração para implantações em contêineres.