Recursos do Amazon SageMaker HyperPod
Escale e acelere o desenvolvimento de modelos de IA generativa em milhares de aceleradores de IA
Governança de tarefas
O Amazon SageMaker HyperPod fornece total visibilidade e controle sobre a alocação de recursos computacionais em tarefas de desenvolvimento de modelos de IA generativa, como treinamento e inferência. O SageMaker HyperPod gerencia automaticamente as filas de tarefas, garantindo que as tarefas mais críticas sejam priorizadas e, ao mesmo tempo, usa recursos computacionais de forma mais eficiente para reduzir os custos de desenvolvimento de modelos. Em algumas etapas curtas, os administradores podem definir prioridades para diferentes tarefas e definir limites para quantos recursos computacionais cada equipe ou projeto pode usar. Em seguida, cientistas de dados e desenvolvedores criam tarefas (por exemplo, uma execução de treinamento, o ajuste fino de um modelo específico ou a realização de previsões em um modelo treinado) que o SageMaker HyperPod executa automaticamente, respeitando os limites e prioridades dos recursos computacionais definidos pelo administrador. Quando uma tarefa de alta prioridade precisa ser concluída imediatamente, mas todos os recursos computacionais estão em uso, o SageMaker HyperPod libera automaticamente os recursos computacionais das tarefas de menor prioridade. Além disso, o SageMaker HyperPod usa automaticamente recursos computacionais ociosos para acelerar as tarefas em espera. O SageMaker HyperPod fornece um painel no qual os administradores podem monitorar e auditar tarefas que estão sendo executadas ou aguardando recursos computacionais.
Planos de treinamento flexíveis
Para cumprir seus cronogramas e orçamentos de treinamento, o SageMaker HyperPod ajuda você a criar os planos de treinamento mais econômicos que usam recursos computacionais de vários blocos de capacidade computacional. Depois de aprovar os planos de treinamento, o SageMaker HyperPod provisiona automaticamente a infraestrutura e executa os trabalhos de treinamento nesses recursos de computação sem exigir nenhuma intervenção manual. Você economiza semanas de esforço gerenciando o processo de treinamento para alinhar as tarefas à disponibilidade computacional.
Receitas otimizadas para personalizar modelos
As fórmulas do SageMaker HyperPod ajudam cientistas de dados e desenvolvedores de todos os níveis de habilidade a se beneficiarem da performance de ponta enquanto iniciam rapidamente o treinamento e o ajuste fino de modelos de IA generativa disponíveis publicamente, incluindo os modelos Llama, Mixtral, Mistral e DeepSeek. Além disso, é possível personalizar os modelos de base do Amazon Nova, incluindo Nova Micro, Nova Lite e Nova Pro, utilizando um conjunto de técnicas que incluem Ajuste Fino Supervisionado (SFT), Destilação de Conhecimento, Otimização Direta de Preferências (DPO), Otimização de Política Proximal e Pré-treinamento Contínuo — com suporte para opções de treinamento com eficiência de parâmetros e modelo completo em SFT, Destilação e DPO. Cada receita inclui uma pilha de treinamento que foi testada pela AWS, eliminando semanas de trabalho tedioso testando diferentes configurações de modelos. Você pode alternar entre instâncias baseadas em GPU e AWS Trainium com uma alteração de receita de uma linha, habilitar o checkpoint automatizado de modelos para melhorar a resiliência do treinamento e executar workloads em produção no SageMaker HyperPod.
Treinamento distribuído de alto desempenho
O SageMaker HyperPod acelera os treinamentos distribuídos ao dividir automaticamente seus modelos e conjuntos de dados de treinamento em instâncias de GPU da AWS. Ele ajuda a otimizar seu trabalho de treinamento para a infraestrutura de rede e a topologia de cluster da AWS e a simplificar a verificação de modelos otimizando a frequência de salvamento de pontos de verificação, garantindo o mínimo de sobrecarga durante o treinamento.
Ferramentas avançadas de observabilidade e experimentação
A observabilidade do SageMaker HyperPod fornece um painel unificado pré-configurado no Amazon Managed Grafana, e os dados de monitoramento são publicados automaticamente em um espaço de trabalho do Amazon Managed Prometheus. É possível observar métricas de performance, utilização de recursos e integridade do cluster em tempo real em uma única visualização. Isso permite que as equipes identifiquem rapidamente gargalos, evitem atrasos dispendiosos e otimizem os recursos de computação. O HyperPod também é integrado ao Amazon CloudWatch Container Insights, fornecendo insights mais detalhados sobre a performance, a integridade e a utilização dos clusters. O TensorBoard gerenciado no SageMaker ajuda você a economizar tempo de desenvolvimento ao visualizar a arquitetura do modelo para identificar e corrigir problemas de convergência. O MLflow gerenciado no SageMaker ajuda você a gerenciar eficientemente experimentos em grande escala.

Programação e orquestração de workloads
A interface do usuário do SageMaker HyperPod é altamente personalizável ao usar o Slurm ou o Amazon Elastic Kubernetes Service (Amazon EKS). Você pode selecionar e instalar qualquer estrutura ou ferramenta necessária. Todos os clusters são provisionados com o tipo e o número de instâncias que você escolher, e são retidos para uso em todas as workloads. Com o suporte do Amazon EKS no SageMaker HyperPod, é possível gerenciar e operar clusters mantendo uma experiência de administração consistente baseada no Kubernetes. Realize a execução e a escalabilidade das workloads de forma eficiente, desde o treinamento até o ajuste e a inferência. Além disso, é possível compartilhar a capacidade de computação e alternar entre o Slurm e o Amazon EKS para a execução de diferentes tipos de workloads.
Verificação e reparo automáticos da integridade do cluster
Se alguma instância apresentar defeito durante um workload de desenvolvimento de modelo, o SageMaker HyperPod detecta e soluciona automaticamente os problemas de infraestrutura. Para detectar hardware defeituoso, o SageMaker HyperPod executa regularmente uma série de verificações de integridade do acelerador e da rede.
Acelere as implantações de modelos de pesos abertos com o SageMaker Jumpstart
O SageMaker HyperPod simplifica automaticamente a implantação de modelos de base de peso aberto do SageMaker JumpStart e de modelos ajustados do S3 e FSx. O HyperPod provisiona automaticamente a infraestrutura necessária e configura os endpoints, eliminando o provisionamento manual. Com a governança de tarefas do HyperPod, o tráfego de endpoints é monitorado continuamente e ajusta dinamicamente os recursos de computação, ao mesmo tempo que publica métricas de performance abrangentes no painel de observabilidade para monitoramento e otimização em tempo real.
