Возможности Amazon SageMaker HyperPod

Масштабируйте и ускоряйте разработку моделей генеративного искусственного интеллекта в тысячах ускорителей ИИ

Управление задачами

Amazon SageMaker HyperPod обеспечивает полную прозрачность и контроль распределения вычислительных ресурсов при выполнении задач разработки моделей генеративного искусственного интеллекта, таких как обучение и логический вывод. SageMaker HyperPod автоматически управляет очередями задач, обеспечивая определение приоритета наиболее важных задач, а также более эффективно используя вычислительные ресурсы для снижения затрат на разработку модели. Всего за несколько простых шагов администраторы могут определять приоритеты для разных задач и устанавливать ограничения по количеству вычислительных ресурсов, которые может использовать каждая команда или проект. Затем специалисты по обработке данных и разработчики создают задачи (например, учебный запуск, тонкая настройка конкретной модели или составление прогнозов на основе обученной модели), которые SageMaker HyperPod автоматически запускает в соответствии с ограничениями вычислительных ресурсов и установленными администратором приоритетами. Если высокоприоритетную задачу необходимо выполнить немедленно, но все вычислительные ресурсы уже заняты, SageMaker HyperPod автоматически высвобождает вычислительные ресурсы, решающие задачи с более низким приоритетом. Кроме того, SageMaker HyperPod автоматически использует неиспользуемые вычислительные ресурсы для ускорения решения задач, находящихся в режиме ожидания. SageMaker HyperPod предлагает панель управления, на которой администраторы могут отслеживать и проверять задачи, которые уже выполняются или ожидают получения вычислительных ресурсов.

Подробнее

Гибкие планы обучения

Чтобы уложиться в сроки и бюджет обучения, SageMaker HyperPod помогает создавать наиболее экономичные учебные планы, в которых используются ресурсы сразу нескольких блоков вычислительных мощностей. Сразу после утверждения учебных планов SageMaker HyperPod автоматически подготовит инфраструктуру и запустит учебные задачи на этих вычислительных ресурсах, не требуя выполнения каких-либо операций вручную. Экономия на управлении учебным процессом составит недели усилий по приведению заданий в соответствие с доступностью вычислительных ресурсов.

Подробнее

 

Оптимизированные рецепты для настройки моделей

Благодаря рецептам SageMaker HyperPod специалисты по обработке данных и разработчики с любым арсеналом навыков по достоинству оценят высочайшую производительность и смогут в кратчайшие сроки приступить к обучению и настройке общедоступных моделей генеративного искусственного интеллекта, в число которых входят модели Llama, Mixtral, Mistral и DeepSeek. Кроме того, вы можете кастомизировать базовые модели Amazon Nova, включая Nova Micro, Nova Lite и Nova Pro, с помощью набора методов, таких как контролируемое дообучение (Supervised Fine-Tuning, SFT), дистилляция знаний (Knowledge Distillation), оптимизация напрямую по предпочтениям (Direct Preference Optimization, DPO), проксимальная оптимизация политики (Proximal Policy Optimization) и непрерывное предобучение (Continued Pre-Training). Для SFT, дистилляции и DPO доступны как обучение с оптимизацией по параметрам, так и полное обучение моделей. Каждый рецепт включает протестированный AWS стек обучения, что избавляет от многонедельной утомительной работы по тестированию различных конфигураций моделей. Вы можете переключаться между инстансами на базе графического процессора и инстансами на базе AWS Trainium, изменив одну строку рецепта, включить автоматическую проверку моделей для повышения устойчивости обучения и запустить рабочие нагрузки в рабочей среде на SageMaker HyperPod.

Высокопроизводительное распределенное обучение

SageMaker HyperPod ускоряет распределенное обучение, автоматически разделяя модели и обучающие наборы данных по инстансам с ускорителем AWS. Это помогает оптимизировать учебные задачи в рамках сетевой инфраструктуры и топологии кластера AWS, а также упростить проверку моделей за счет оптимизации частоты сохранения контрольных точек и минимизации накладных расходов во время обучения.

Усовершенствованные инструменты для наблюдения и проведения экспериментов

Система наблюдения SageMaker HyperPod предоставляет унифицированную панель управления, предварительно настроенную в Управляемой Amazon Grafana, а данные мониторинга автоматически публикуются в рабочем пространстве Amazon Managed Prometheus. Вы можете видеть метрики производительности, использования ресурсов и работоспособности кластера в режиме реального времени в одном окне. Это позволяет командам быстро выявлять проблемы, предотвращать дорогостоящие задержки и оптимизировать вычислительные ресурсы. Кроме того, решение HyperPod интегрировано с Аналитикой контейнеров Amazon CloudWatch, что позволяет глубже понять производительность, состояние и использование кластера. Управляемое решение TensorBoard в SageMaker помогает сэкономить время разработки, визуализируя архитектуру модели для выявления и устранения проблем конвергенции. Управляемая платформа MLflow в SageMaker помогает эффективно контролировать масштабные эксперименты.

Фотография

Планирование и оркестрация рабочих нагрузок

Пользовательский интерфейс SageMaker HyperPod легко настраивается с помощью Slurm или Эластичного сервиса Amazon Kubernetes (Amazon EKS). Можно выбрать и установить любые необходимые платформы или инструменты. Всем кластерам предоставляется выбранный тип и количество инстансов, и они сохраняются для использования во всех рабочих нагрузках. Благодаря поддержке Amazon EKS в SageMaker HyperPod вы можете управлять кластерами и работать с ними, используя опыт администратора на основе Kubernetes. Эффективно запускайте и масштабируйте рабочие нагрузки, начиная с обучения и заканчивая настройкой и выводами. Вы также можете распределять вычислительные мощности и переключаться между Slurm и Amazon EKS для разных типов рабочих нагрузок.

Автоматическая проверка работоспособности и восстановление кластера

Если во время выполнения рабочей нагрузки по разработке модели какие-либо инстансы выйдут из строя, SageMaker HyperPod автоматически обнаружит и устранит проблемы с инфраструктурой. Чтобы обнаружить неисправное оборудование, SageMaker HyperPod регулярно проводит множество проверок работоспособности ускорителя и целостности сети.

Ускорьте развертывание моделей с открытыми весами с помощью SageMaker Jumpstart

SageMaker HyperPod автоматически упрощает развертывание базовых моделей с открытыми весами от SageMaker JumpStart и настроенных моделей из S3 и FSx. HyperPod автоматически выделяет необходимую инфраструктуру и настраивает адреса, что устраняет необходимость выделять ресурсы вручную. Благодаря управлению задачами HyperPod трафик адресов постоянно отслеживается и динамически корректирует вычислительные ресурсы, одновременно публикуя исчерпывающие показатели производительности на панели мониторинга наблюдаемости для отслеживания и оптимизации в режиме реального времени.

Фотография