Fitur Amazon SageMaker HyperPod
Skalakan dan percepat pengembangan model AI generatif di ribuan akselerator AI
Tata kelola tugas
Amazon SageMaker HyperPod memberikan visibilitas penuh dan kontrol atas alokasi sumber daya komputasi di seluruh tugas pengembangan model AI generatif, seperti pelatihan dan inferensi. SageMaker HyperPod secara otomatis mengelola antrean tugas, dengan memastikan bahwa tugas yang paling penting diprioritaskan, sembari menggunakan sumber daya komputasi secara lebih efisien untuk mengurangi biaya pengembangan model. Dalam beberapa langkah singkat, administrator dapat menentukan prioritas untuk tugas yang berbeda dan menetapkan batas jumlah sumber daya komputasi yang dapat digunakan oleh setiap tim atau proyek. Kemudian, ilmuwan data dan developer membuat tugas (misalnya, menjalankan pelatihan, menyempurnakan model tertentu, atau membuat prediksi pada model terlatih) yang dijalankan secara otomatis oleh SageMaker HyperPod, dengan mengikuti batas sumber daya komputasi dan prioritas yang ditetapkan administrator. Ketika tugas prioritas tinggi perlu diselesaikan segera tetapi semua sumber daya komputasi digunakan, SageMaker HyperPod secara otomatis membebaskan sumber daya komputasi dari tugas prioritas rendah. Selain itu, SageMaker HyperPod secara otomatis menggunakan sumber daya komputasi idle untuk mempercepat tugas yang menunggu. SageMaker HyperPod menyediakan dasbor tempat administrator dapat memantau dan mengaudit tugas yang sedang berjalan atau menunggu sumber daya komputasi.
Rencana pelatihan yang fleksibel
Untuk memenuhi jadwal dan anggaran pelatihan, SageMaker HyperPod membantu Anda membuat rencana pelatihan paling hemat biaya yang menggunakan sumber daya komputasi dari banyak blok kapasitas komputasi. Setelah Anda menyetujui rencana pelatihan, SageMaker HyperPod secara otomatis menyediakan infrastruktur dan menjalankan tugas pelatihan pada sumber daya komputasi ini tanpa memerlukan intervensi manual apa pun. Anda menghemat waktu berminggu-minggu dalam upaya mengelola proses pelatihan untuk menyelaraskan pekerjaan dengan ketersediaan komputasi.
Resep yang Dioptimalkan untuk Menyesuaikan Model
Resep SageMaker HyperPod membantu ilmuwan data dan developer dari semua keterampilan mendapatkan manfaat dari performa terbaik sambil dengan cepat memulai pelatihan serta menyempurnakan model AI generatif yang tersedia untuk umum, termasuk Llama, Mixtral, Mistral, dan DeepSeek. Selain itu, Anda dapat menyesuaikan model fondasi Amazon Nova, termasuk Nova Micro, Nova Lite, dan Nova Pro menggunakan serangkaian teknik termasuk Penyempurnaan yang Diawasi (SFT), Distilasi Pengetahuan, Optimisasi Preferensi Langsung (DPO), Optimisasi Kebijakan Proksimal, dan Prapelatihan Lanjutan—dengan dukungan untuk opsi parameter efisien serta pelatihan model penuh di seluruh SFT, Distilasi, dan DPO. Setiap resep menyertakan tumpukan pelatihan yang telah diuji oleh AWS, yang menghilangkan berminggu-minggu pekerjaan yang membosankan untuk menguji konfigurasi model yang berbeda. Anda dapat beralih antara instans berbasis GPU dan AWS Trainium dengan perubahan resep satu baris, mengaktifkan titik pemeriksaan model otomatis untuk meningkatkan ketahanan pelatihan, dan menjalankan beban kerja dalam produksi di SageMaker HyperPod.
Pelatihan terdistribusi performa tinggi
SageMaker HyperPod mempercepat pelaksanaan pelatihan terdistribusi dengan membagi model dan set data pelatihan Anda secara otomatis di seluruh akselerator AWS. Hal ini membantu Anda mengoptimalkan tugas pelatihan untuk infrastruktur jaringan AWS dan topologi klaster serta menyederhanakan penyimpanan titik pemeriksaan model dengan mengoptimalkan frekuensi penghematan titik pemeriksaan, sehingga memastikan overhead tetap minimum selama pelatihan.
Alat observabilitas dan eksperimen lanjutan
Observabilitas SageMaker HyperPod menyediakan dasbor terpadu yang telah dikonfigurasi sebelumnya di Amazon Managed Grafana, dengan data pemantauan yang dipublikasikan secara otomatis ke ruang kerja Prometheus yang Dikelola Amazon. Anda dapat melihat metrik performa waktu nyata, pemanfaatan sumber daya, dan kondisi klaster dalam satu tampilan, yang memungkinkan tim menemukan hambatan dengan cepat, mencegah penundaan yang mahal, dan mengoptimalkan sumber daya komputasi. HyperPod juga berintegrasi dengan Wawasan Kontainer Amazon CloudWatch, yang memberikan wawasan mendalam tentang performa, kondisi, dan penggunaan klaster. TensorBoard terkelola di SageMaker membantu Anda menghemat waktu pengembangan dengan memvisualisasikan arsitektur model untuk mengidentifikasi dan memperbaiki masalah konvergensi. MLflow terkelola di SageMaker membantu Anda mengelola eksperimen secara efisien dalam skala besar.

Penjadwalan dan orkestrasi beban kerja
Antarmuka pengguna SageMaker HyperPod sangat mudah disesuaikan dengan menggunakan Slurm atau Amazon Elastic Kubernetes Service (Amazon EKS). Anda dapat memilih dan menginstal kerangka kerja atau alat apa pun yang diperlukan. Semua klaster disediakan dengan tipe dan jumlah instans yang Anda pilih, dan klaster tersebut dipertahankan untuk Anda gunakan di seluruh beban kerja. Dengan dukungan Amazon EKS di SageMaker HyperPod, Anda dapat mengelola dan mengoperasikan klaster dengan pengalaman administrator berbasis Kubernetes yang konsisten. Jalankan dan skalakan beban kerja secara efisien, mulai dari pelatihan ke penyetelan hingga inferensi. Anda juga dapat berbagi kapasitas komputasi dan beralih antara Slurm dan Amazon EKS dengan mudah untuk berbagai jenis beban kerja.
Pemeriksaan dan perbaikan kondisi klaster otomatis
Jika ada instans yang rusak selama beban kerja pengembangan model, SageMaker HyperPod secara otomatis mendeteksi dan mengatasi masalah infrastruktur. Untuk mendeteksi perangkat keras yang rusak, SageMaker HyperPod secara rutin menjalankan serangkaian pemeriksaan kondisi untuk integritas akselerator dan jaringan.
Percepat deployment model dengan bobot terbuka dari SageMaker Jumpstart
SageMaker HyperPod secara otomatis menyederhanakan deployment model fondasi dengan bobot terbuka dari SageMaker JumpStart dan model yang disempurnakan dari S3 dan FSx. HyperPod secara otomatis menyediakan infrastruktur yang diperlukan dan mengonfigurasi titik akhir sehingga menghilangkan penyediaan manual. Dengan tata kelola tugas HyperPod, lalu lintas titik akhir terus dipantau dan secara dinamis menyesuaikan sumber daya komputasi, sekaligus menerbitkan metrik performa komprehensif ke dasbor observabilitas untuk pemantauan dan optimisasi waktu nyata.
