Tính năng của Amazon SageMaker HyperPod

Điều chỉnh quy mô và tăng tốc phát triển mô hình AI tạo sinh trên hàng nghìn trình tăng tốc AI

Quản trị tác vụ

Amazon SageMaker HyperPod cung cấp khả năng hiển thị toàn diện và kiểm soát việc phân bổ tài nguyên điện toán trên các tác vụ phát triển mô hình AI tạo sinh, chẳng hạn như đào tạo và suy luận. SageMaker HyperPod tự động quản lý hàng đợi tác vụ, đảm bảo các tác vụ quan trọng nhất được ưu tiên, đồng thời sử dụng tài nguyên điện toán hiệu quả hơn để giảm chi phí phát triển mô hình. Trong một vài bước ngắn gọn, quản trị viên có thể xác định mức độ ưu tiên cho các tác vụ khác nhau và thiết lập giới hạn cho số lượng tài nguyên điện toán mà mỗi nhóm hoặc dự án có thể sử dụng. Sau đó, các nhà khoa học dữ liệu và nhà phát triển tạo các tác vụ (ví dụ: chạy đào tạo, tinh chỉnh một mô hình cụ thể hoặc đưa ra dự đoán trên mô hình được đào tạo) mà SageMaker HyperPod tự động chạy, tuân thủ các giới hạn tài nguyên điện toán và ưu tiên mà quản trị viên đã đặt ra. Khi một tác vụ có mức độ ưu tiên cao cần được hoàn thành ngay lập tức nhưng tất cả tài nguyên điện toán đang được sử dụng, SageMaker HyperPod sẽ tự động giải phóng tài nguyên điện toán khỏi các tác vụ có mức độ ưu tiên thấp hơn. Ngoài ra, SageMaker HyperPod tự động sử dụng tài nguyên điện toán nhàn rỗi để tăng tốc các tác vụ chờ đợi. SageMaker HyperPod cung cấp bảng điều khiển mà trong đó quản trị viên có thể giám sát và kiểm tra các tác vụ đang chạy hoặc đang chờ tài nguyên điện toán.

Tìm hiểu thêm

Kế hoạch đào tạo linh hoạt

Để đáp ứng thời gian và ngân sách đào tạo của bạn, SageMaker HyperPod giúp bạn tạo các kế hoạch đào tạo tiết kiệm chi phí nhất sử dụng tài nguyên điện toán từ nhiều khối dung lượng điện toán. Sau khi bạn phê duyệt kế hoạch đào tạo, SageMaker HyperPod sẽ tự động cung cấp cơ sở hạ tầng và chạy các tác vụ đào tạo trên các tài nguyên điện toán này mà không đòi hỏi bất kỳ sự can thiệp thủ công nào. Bạn không phải mất nhiều tuần tốn công sức quản lý quá trình đào tạo để điều chỉnh các tác vụ sao cho phù hợp với mức điện toán sẵn sàng.

Tìm hiểu thêm

 

Công thức tối ưu để tùy chỉnh mô hình

Công thức SageMaker HyperPod giúp các nhà khoa học dữ liệu và nhà phát triển sở hữu tất cả các bộ kỹ năng khác nhau được hưởng lợi từ hiệu năng tối tân, đồng thời nhanh chóng bắt đầu đào tạo và tinh chỉnh các mô hình AI tạo sinh được cung cấp công khai, bao gồm các mô hình Llama, Mixtral, Mistral và DeepSeek. Ngoài ra, bạn có thể tùy chỉnh các mô hình nền tảng Amazon Nova, bao gồm Nova Micro, Nova Lite và Nova Pro bằng một bộ kỹ thuật bao gồm Tinh chỉnh có giám sát (SFT), Chắt lọc kiến thức, Tối ưu hóa ưu tiên trực tiếp (DPO), Tối ưu hóa chính sách gần và Đào tạo trước liên tục - với sự hỗ trợ cho cả các tùy chọn đào tạo hiệu quả thông số và đào tạo toàn mô hình trên SFT, Distillation và DPO. Mỗi công thức bao gồm một ngăn xếp đào tạo đã được AWS kiểm thử, giúp bạn không phải tốn nhiều tuần làm các công việc tẻ nhạt khi kiểm thử các cấu hình mô hình khác nhau. Bạn có thể chuyển đổi giữa phiên bản dựa trên GPU và phiên bản dựa trên AWS Trainium bằng cách thay đổi công thức một dòng, kích hoạt tính năng tạo điểm kiểm tra mô hình tự động để cải thiện khả năng phục hồi quá trình đào tạo và chạy khối lượng công việc ở khâu sản xuất trên SageMaker HyperPod.

Đào tạo phân tán hiệu năng cao

SageMaker HyperPod tăng tốc đào tạo phân tán bằng cách tự động chia tách các mô hình và tập dữ liệu đào tạo của bạn trên các trình tăng tốc của AWS. Nó giúp bạn tối ưu hóa tác vụ đào tạo của mình cho cơ sở hạ tầng mạng AWS và cấu trúc liên kết cụm, đồng thời hợp lý hóa việc tạo điểm kiểm tra mô hình bằng cách tối ưu hóa tần suất lưu các điểm kiểm tra, đảm bảo chi phí tối thiểu trong quá trình đào tạo.

Các công cụ thử nghiệm và khả năng quan sát nâng cao

Khả năng quan sát của SageMaker HyperPod cung cấp bảng điều khiển thống nhất được cấu hình sẵn trong Grafana được quản lý của Amazon, với dữ liệu giám sát được tự động xuất bản lên không gian làm việc Prometheus được quản lý của Amazon. Bạn có thể xem các chỉ số hiệu suất theo thời gian thực, việc sử dụng tài nguyên và tình trạng cụm trong một chế độ xem duy nhất, cho phép các nhóm nhanh chóng phát hiện ra tắc nghẽn, ngăn chặn sự chậm trễ tốn kém và tối ưu hóa tài nguyên tính toán. HyperPod cũng được tích hợp với Thông tin chuyên sâu về bộ chứa của Amazon CloudWatch cung cấp thông tin chuyên sâu chi tiết hơn về hiệu năng, tình trạng và mức sử dụng cụm. TensorBoard được quản lý trong SageMaker giúp bạn tiết kiệm thời gian phát triển bằng cách trực quan hóa kiến trúc mô hình để xác định và khắc phục các lỗi hội tụ. MLflow được quản lý trong SageMaker giúp bạn quản lý hiệu quả các thử nghiệm trên quy mô lớn.

Ảnh

Lên lịch và điều phối khối lượng công việc

Giao diện người dùng SageMaker HyperPod cho phép tùy chỉnh dễ dàng bằng Slurm hoặc Dịch vụ Kubernetes linh hoạt Amazon (Amazon EKS). Bạn có thể chọn và cài đặt bất kỳ khung hoặc công cụ nào cần thiết. Tất cả các cụm được cung cấp loại phiên bản và số lượng phiên bản do bạn chọn và chúng được giữ lại để bạn sử dụng trên các khối lượng công việc. Với sự hỗ trợ của Amazon EKS trong SageMaker HyperPod, bạn có thể quản lý và vận hành các cụm với trải nghiệm quản trị viên nhất quán chạy trên Kubernetes. Vận hành và mở rộng khối lượng công việc một cách hiệu quả, từ đào tạo đến tinh chỉnh và suy luận. Bạn cũng có thể chia sẻ dung lượng điện toán và chuyển đổi giữa Slurm và EKS của Amazon cho các loại khối lượng công việc khác nhau.

Tự động kiểm tra và sửa chữa tình trạng của cụm

Nếu bất kỳ phiên bản nào bị lỗi trong khối lượng công việc phát triển mô hình, SageMaker HyperPod sẽ tự động phát hiện và giải quyết các vấn đề cơ sở hạ tầng. Để phát hiện phần cứng bị lỗi, SageMaker HyperPod thường xuyên tiến hành một loạt kiểm tra tình trạng để kiểm tra tính toàn vẹn của trình tăng tốc và mạng.

Tăng tốc triển khai mô hình trọng số mở từ SageMaker Jumpstart

SageMaker HyperPod tự động hợp lý hóa việc triển khai các mô hình nền tảng trọng số mở từ SageMaker JumpStart và các mô hình đã qua tinh chỉnh từ S3 và FSx. HyperPod tự động cung cấp cơ sở hạ tầng cần thiết và cấu hình các điểm cuối, loại bỏ việc cung cấp thủ công. Với quản trị nhiệm vụ HyperPod, lưu lượng truy cập điểm cuối được theo dõi liên tục và điều chỉnh tài nguyên tính toán một cách linh hoạt, đồng thời xuất bản các số liệu hiệu suất toàn diện lên bảng điều khiển khả năng quan sát để theo dõi và tối ưu hóa theo thời gian thực.

Ảnh