ฟีเจอร์ของ Amazon SageMaker HyperPod

ปรับขนาดและเร่งการพัฒนาโมเดล AI ช่วยสร้างผ่านตัวเร่งความเร็ว AI หลายพันตัว

การกำกับดูแลงาน

Amazon SageMaker HyperPod มอบการมองเห็นและการควบคุมเต็มรูปแบบในการจัดสรรทรัพยากรการประมวลผลในงานการพัฒนาโมเดล AI ช่วยสร้าง เช่น การฝึกและการอนุมาน SageMaker HyperPod จัดการคิวงานโดยอัตโนมัติ ช่วยให้มั่นใจว่างานที่สำคัญที่สุดจะได้รับความสำคัญสูงสุด ในขณะเดียวกันก็ใช้ทรัพยากรการประมวลผลอย่างมีประสิทธิภาพมากขึ้นเพื่อลดต้นทุนการพัฒนาโมเดล ในขั้นตอนสั้น ๆ ไม่กี่ขั้นตอน ผู้ดูแลระบบสามารถกำหนดลำดับความสำคัญสำหรับงานต่าง ๆ และตั้งค่าขีดจำกัดเกี่ยวกับจำนวนทรัพยากรการประมวลผลที่แต่ละทีมหรือโครงการสามารถใช้ได้ จากนั้น นักวิทยาศาสตร์ข้อมูลและนักพัฒนาจะสร้างงาน (เช่น การฝึก การปรับแต่งโมเดลเฉพาะ หรือการคาดการณ์บนโมเดลที่ได้รับการฝึก) ที่ SageMaker HyperPod รันโดยอัตโนมัติ โดยยึดตามขีดจำกัดทรัพยากรการประมวลผลและลำดับความสำคัญที่ผู้ดูแลระบบกำหนดไว้ เมื่อต้องดำเนินการงานที่มีความสำคัญสูงให้เสร็จสิ้นทันที แต่ทรัพยากรการประมวลผลทั้งหมดถูกใช้งานอยู่ SageMaker HyperPod จะทำการเคลียร์ทรัพยากรการประมวลผลจากงานที่มีความสำคัญต่ำกว่าโดยอัตโนมัติ นอกจากนี้ SageMaker HyperPod จะใช้ทรัพยากรการประมวลผลที่ไม่ได้ใช้งานโดยอัตโนมัติเพื่อเร่งงานที่กำลังรออยู่ SageMaker HyperPod มอบแดชบอร์ดที่ผู้ดูแลระบบสามารถติดตามตรวจสอบและตรวจสอบงานที่กำลังทำงานหรือกำลังรอทรัพยากรการประมวลผล

เรียนรู้เพิ่มเติม

แผนฝึกที่ยืดหยุ่น

เพื่อให้ตรงตามกำหนดเวลาและงบประมาณการฝึกของคุณ SageMaker HyperPod จะช่วยให้คุณสร้างแผนการฝึกที่คุ้มต้นทุนมากที่สุดซึ่งใช้ทรัพยากรการประมวลผลจากบล็อกความสามารถในการประมวลผลหลายบล็อก เมื่อคุณอนุมัติแผนการฝึก SageMaker HyperPod จะจัดเตรียมโครงสร้างพื้นฐานโดยอัตโนมัติและรันงานการฝึกบนทรัพยากรการประมวลผลเหล่านี้โดยไม่ต้องมีการดำเนินการด้วยตนเองใด ๆ คุณประหยัดเวลาหลายสัปดาห์ในการจัดการกระบวนการฝึกเพื่อให้งานสอดคล้องกับความพร้อมใช้งานของการประมวลผล

เรียนรู้เพิ่มเติม

 

สูตรอาหารที่เหมาะสมเพื่อปรับแต่งโมเดล

สูตร SageMaker HyperPod ช่วยให้นักวิทยาศาสตร์ข้อมูลและนักพัฒนาชุดทักษะทั้งหมดได้รับประโยชน์จากประสิทธิภาพที่ล้ำสมัย ในขณะที่เริ่มต้นการฝึกอบรมและปรับแต่งโมเดล AI แบบสร้างแบบสาธารณะได้อย่างรวดเร็ว รวมถึงโมเดล Llama, Mixtral, Mistral และ DeepSeek นอกจากนี้ คุณสามารถปรับแต่งโมเดลมูลฐานของ Amazon Nova ได้แก่ Nova Micro, Nova Lite และ Nova Pro โดยใช้ชุดเทคนิคต่างๆ ได้แก่ Supervised Fine-Tuning (SFT), การกลั่นความรู้, การเพิ่มประสิทธิภาพการตั้งค่าโดยตรง (DPO), การเพิ่มประสิทธิภาพนโยบาย Proximal และการฝึกอบรมแบบต่อเนื่อง พร้อมรองรับทั้งตัวเลือกการฝึกอบรมแบบเต็มรูปแบบใน SFT, Distillation และ DPO แต่ละสูตรประกอบด้วยสแต็กการฝึกที่ได้รับการทดสอบโดย AWS แล้ว ซึ่งช่วยลดเวลาอันยาวนานหลายสัปดาห์ในการทดสอบการกำหนดค่าโมเดลต่าง ๆ คุณสามารถสลับไปมาระหว่างอินสแตนซ์ที่ใช้ GPU กับอินสแตนซ์ที่ใช้ AWS Trainium ได้ด้วยการเปลี่ยนสูตรเพียงบรรทัดเดียว เปิดใช้การตรวจสอบจุดตรวจสอบโมเดลอัตโนมัติเพื่อความยืดหยุ่นในการฝึกที่ดีขึ้น และรันเวิร์กโหลดในการผลิตบน SageMaker HyperPod

การฝึกแบบกระจายที่มีประสิทธิภาพสูง

SageMaker HyperPod ช่วยเร่งการฝึกแบบกระจายรวดเร็วยิ่งขึ้นด้วยการแบ่งโมเดลและชุดข้อมูลการฝึกของคุณระหว่างตัวเร่งความเร็ว AWS โดยอัตโนมัติ ช่วยให้คุณเพิ่มประสิทธิภาพงานการฝึกสำหรับโครงสร้างพื้นฐานเครือข่าย AWS และโทโพโลยีคลัสเตอร์ และปรับปรุงจุดตรวจสอบโมเดลด้วยการเพิ่มประสิทธิภาพความถี่ในการบันทึกจุดตรวจสอบ ช่วยให้มั่นใจได้ว่ามีค่าใช้จ่ายเบื้องต้นน้อยที่สุดระหว่างการฝึก

เครื่องมือข้อมูลการสังเกตและการทดลองขั้นสูง

ข้อมูลการสังเกตของ SageMaker HyperPod มีแดชบอร์ดแบบรวมศูนย์ที่ได้กำหนดค่าล่วงหน้าใน Amazon Managed Grafana แล้ว โดยมีข้อมูลการติดตามระบบที่เผยแพร่ไปยังพื้นที่ทำงานของ Amazon Managed Prometheus โดยอัตโนมัติ คุณสามารถดูข้อมูลตัวชี้วัดประสิทธิภาพแบบเรียลไทม์ การใช้ทรัพยากร และสถานะของคลัสเตอร์ได้ในมุมมองเดียว ซึ่งช่วยให้ทีมสามารถตรวจพบจุดคอขวดได้อย่างรวดเร็ว ป้องกันความล่าช้าที่มีค่าใช้จ่ายสูง และปรับใช้ทรัพยากรการประมวลผลให้เหมาะสมได้ HyperPod ยังผสานการทำงานกับ Amazon CloudWatch Container Insights ในการให้ข้อมูลเชิงลึกยิ่งขึ้นเกี่ยวกับประสิทธิภาพ สถานะ และการใช้คลัสเตอร์ TensorBoard ที่มีการจัดการใน SageMaker ช่วยให้คุณประหยัดเวลาในการพัฒนาโดยการแสดงภาพสถาปัตยกรรมโมเดลเพื่อระบุและแก้ไขปัญหาการหาค่าที่เหมาะสมกันได้ MLflow ที่มีการจัดการใน SageMaker ช่วยให้คุณจัดการการทดลองที่สามารถปรับขนาดได้อย่างมีประสิทธิภาพ

รูปภาพ

การกำหนดเวลาเวิร์กโหลดและการควบคุมระบบ

อินเทอร์เฟซผู้ใช้ SageMaker HyperPod สามารถปรับแต่งได้หลากหลายโดยใช้ Slurm หรือ Amazon Elastic Kubernetes Service (Amazon EKS) คุณสามารถเลือกและติดตั้งกรอบงานหรือเครื่องมือที่จำเป็นได้ คลัสเตอร์ทั้งหมดจะถูกจัดเตรียมไว้ด้วยประเภทอินสแตนซ์และจำนวนที่คุณเลือก และจะเก็บไว้สำหรับการใช้งานของคุณตลอดทั้งเวิร์กโหลด ด้วยการรองรับ Amazon EKS ใน SageMaker HyperPod คุณจึงสามารถจัดการและดำเนินการคลัสเตอร์ที่มีประสบการณ์ผู้ดูแลระบบที่ใช้ Kubernetes ที่สอดคล้องกันได้ เรียกใช้และปรับขนาดเวิร์กโหลดได้อย่างมีประสิทธิภาพ ตั้งแต่การฝึกไปจนถึงการปรับแต่งเพื่ออนุมาน นอกจากนี้ คุณยังสามารถแชร์ความสามารถในการประมวลผลและสลับใช้งานระหว่าง Slurm และ Amazon EKS สำหรับเวิร์กโหลดประเภทต่าง ๆ ได้อย่างง่ายดายอีกด้วย

การตรวจสอบสถานะประสิทธิภาพและซ่อมแซมสภาพคลัสเตอร์อัตโนมัติ

หากมีอินสแตนซ์ใด ๆ เกิดข้อบกพร่องในระหว่างเวิร์กโหลดการพัฒนาโมเดล SageMaker HyperPod จะตรวจจับและแก้ไขปัญหาโครงสร้างพื้นฐานโดยอัตโนมัติ เพื่อตรวจจับฮาร์ดแวร์ที่ผิดพลาด SageMaker HyperPod จะดำเนินการตรวจสอบสถานะประสิทธิภาพอย่างสม่ำเสมอสำหรับความสมบูรณ์ของตัวเร่งความเร็วและความสมบูรณ์ของเครือข่าย

เร่งการนำโมเดลแบบโอเพนเวทจาก SageMaker Jumpstart ไปใช้งานจริง

SageMaker HyperPod ช่วยเพิ่มประสิทธิภาพในการนำโมเดลพื้นฐานแบบโอเพนเวทจาก SageMaker JumpStart และโมเดลที่ผ่านการปรับแต่งเพิ่มเติมจาก S3 และ FSx ไปใช้งานจริงโดยอัตโนมัติ HyperPod จัดเตรียมโครงสร้างพื้นฐานที่จำเป็นและกำหนดค่าตำแหน่งข้อมูลให้อัตโนมัติ ช่วยลดความจำเป็นในการจัดเตรียมด้วยตนเอง ด้วยการกำกับดูแลงานของ HyperPod จะมีการตรวจสอบปริมาณการใช้งานของตำแหน่งข้อมูลอย่างต่อเนื่อง และปรับทรัพยากรการประมวลผลแบบไดนามิก พร้อมกันนั้นก็ยังเผยแพร่ตัวชี้วัดประสิทธิภาพที่ครอบคลุมไปยังแดชบอร์ดข้อมูลการสังเกตสำหรับการตรวจสอบและการเพิ่มประสิทธิภาพแบบเรียลไทม์

รูปภาพ