การฝึกโมเดลของ SageMaker คืออะไร
Amazon SageMaker Model Training ช่วยลดเวลาและค่าใช้จ่ายในการฝึกอบรมและปรับแต่งโมเดลแมชชีนเลิร์นนิง (ML) ในทุกระดับโดยไม่จำเป็นต้องจัดการโครงสร้างพื้นฐาน คุณสามารถใช้ประโยชน์จากโครงสร้างพื้นฐานการประมวลผล ML ที่มีประสิทธิภาพสูงสุดที่มีอยู่ในปัจจุบันได้ และ Amazon SageMaker AI สามารถปรับขนาดโครงสร้างพื้นฐานขึ้นหรือลงได้โดยอัตโนมัติ จาก GPU หนึ่งตัวไปจนถึงหลายพันตัว เพื่อฝึกฝนโมเดลดีปเลิร์นนิงได้เร็วขึ้น SageMaker AI จะช่วยให้คุณเลือกและปรับแต่งชุดข้อมูลได้แบบเรียลไทม์ ไลบรารีการฝึกฝนแบบกระจายของ SageMaker สามารถแยกโมเดลขนาดใหญ่และชุดข้อมูลการฝึกทั่วทั้งอินสแตนซ์ AWS GPU ได้โดยอัตโนมัติ หรือคุณสามารถใช้ไลบรารีของบริษัทอื่น เช่น DeepSpeed, Horovod หรือ Megatron ฝึกฝนโมเดลพื้นฐาน (FM) เป็นเวลาหลายสัปดาห์และหลายเดือนโดยไม่มีการหยุดชะงักโดยการตรวจสอบและซ่อมแซมคลัสเตอร์การฝึกฝนแบบอัตโนมัติ
ประโยชน์ของการฝึกฝนที่ประหยัดค่าใช้จ่าย
ฝึกฝนโมเดลในทุกระดับ
งานฝึกที่มีการจัดการอย่างเต็มรูปแบบ
งานฝึกของ SageMaker มอบประสบการณ์ผู้ใช้ที่มีการจัดการอย่างเต็มรูปแบบสำหรับการฝึก FM แบบกระจายขนาดใหญ่ โดยขจัดภาระหนักที่ซ้ำซ้อนกันในการจัดการโครงสร้างพื้นฐาน งานฝึกของ SageMaker จะสร้างคลัสเตอร์การฝึกแบบกระจายที่มีความยืดหยุ่นโดยอัตโนมัติ ตรวจสอบโครงสร้างพื้นฐาน และกู้คืนอัตโนมัติจากข้อผิดพลาดเพื่อให้แน่ใจว่าประสบการณ์การฝึกนั้นจะเป็นไปอย่างราบรื่น เมื่อการฝึกเสร็จสิ้น SageMaker จะนำคลัสเตอร์ดังกล่าวออก และคุณจะถูกเรียกเก็บเงินสำหรับเวลาฝึกสุทธิ นอกจากนี้ ด้วยงานฝึกของ SageMaker คุณจะมีความยืดหยุ่นในการเลือกประเภทอินสแตนซ์ที่เหมาะสมเพื่อให้เหมาะกับเวิร์กโหลดแต่ละรายการมากที่สุด (เช่น ฝึกโมเดลภาษาขนาดใหญ่ (LLM) ล่วงหน้าบนคลัสเตอร์ P5 หรือปรับแต่ง LLM แบบโอเพนซอร์สบนอินสแตนซ์ p4d) เพื่อปรับงบประมาณการฝึกของคุณให้เหมาะสมต่อไป นอกจากนี้ งานฝึกของ SagerMaker ยังมอบประสบการณ์ผู้ใช้ที่เป็นไปในทิศทางเดียวกันภายในทีม ML ที่มีระดับความเชี่ยวชาญทางเทคนิคและประเภทเวิร์กโหลดที่แตกต่างกัน
SageMaker HyperPod
Amazon SageMaker HyperPod เป็นโครงสร้างพื้นฐานที่สร้างขึ้นตามวัตถุประสงค์เพื่อจัดการคลัสเตอร์การประมวลผลเพื่อปรับขนาดการพัฒนาโมเดลพื้นฐาน (FM) ได้อย่างมีประสิทธิภาพ ช่วยให้สามารถใช้เทคนิคการฝึกโมเดลขั้นสูง การควบคุมโครงสร้างพื้นฐาน การเพิ่มประสิทธิภาพการทำงาน และข้อมูลการสังเกตโมเดลที่ได้รับการปรับปรุง SageMaker HyperPod ได้รับการกำหนดค่าล่วงหน้าด้วยไลบรารีการฝึกแบบกระจายของ SageMaker ซึ่งช่วยให้คุณสามารถแบ่งโมเดลและชุดข้อมูลการฝึกทั่วทั้งอินสแตนซ์คลัสเตอร์ AWS โดยอัตโนมัติ เพื่อช่วยให้สามารถใช้โครงสร้างพื้นฐานการประมวลผลและเครือข่ายของคลัสเตอร์ได้อย่างมีประสิทธิภาพ ช่วยให้สภาพแวดล้อมมีความยืดหยุ่นมากขึ้นโดยการตรวจจับ วินิจฉัย และกู้คืนจากข้อผิดพลาดของฮาร์ดแวร์โดยอัตโนมัติ ช่วยให้คุณสามารถฝึก FM อย่างต่อเนื่องเป็นเวลาหลายเดือนโดยไม่หยุดชะงัก ซึ่งจะลดเวลาฝึกได้ถึง 40%
การฝึกฝนแบบกระจายประสิทธิภาพสูง
SageMaker AI ทำให้การฝึกแบบกระจายรวดเร็วยิ่งขึ้นด้วยการแบ่งโมเดลและชุดข้อมูลการฝึกของคุณระหว่างตัวเร่งความเร็ว AWS โดยอัตโนมัติ ช่วยให้คุณเพิ่มประสิทธิภาพงานฝึกของคุณสำหรับโครงสร้างพื้นฐานเครือข่าย AWS และโทโพโลยีคลัสเตอร์ นอกจากนี้ยังช่วยปรับปรุงจุดตรวจสอบโมเดลผ่านสูตรด้วยการเพิ่มประสิทธิภาพความถี่ในการบันทึกจุดตรวจสอบ เพื่อให้มั่นใจได้ว่ามีค่าใช้จ่ายคงที่น้อยที่สุดระหว่างการฝึก
ปรับแต่งโมเดล AI ช่วยสร้างและโมเดล ML ได้อย่างมีประสิทธิภาพ
Amazon SageMaker AI ช่วยให้สามารถปรับแต่งโมเดลพื้นฐานทั้งที่เป็นกรรมสิทธิ์ของ Amazon และที่เผยแพร่ต่อสาธารณะด้วยชุดข้อมูลที่กำหนดเอง โดยไม่จำเป็นต้องฝึกโมเดลใหม่ตั้งแต่ต้น นักวิทยาศาสตร์ข้อมูลและนักพัฒนาทุกระดับทักษะสามารถเริ่มต้นการฝึกและการปรับแต่งโมเดล AI ช่วยสร้างทั้งแบบสาธารณะและแบบมีกรรมสิทธิ์ได้อย่างรวดเร็ว ด้วยสูตรการฝึกที่ได้รับการปรับให้เหมาะสม แต่ละสูตรได้รับการทดสอบโดย AWS ซึ่งขจัดการทำงานที่น่าเบื่อและใช้เวลาหลายสัปดาห์ในการทดสอบการตั้งค่าต่าง ๆ ของโมเดลเพื่อให้ได้ประสิทธิภาพในระดับสูงสุด สูตรเหล่านี้จะช่วยให้คุณสามารถปรับแต่งตระกูลโมเดลยอดนิยมที่เผยแพร่ต่อสาธารณะ เช่น Llama, Mixtral และ Mistral นอกจากนี้ คุณสามารถปรับแต่งโมเดลมูลฐานของ Amazon Nova ได้แก่ Nova Micro, Nova Lite และ Nova Pro สำหรับกรณีการใช้งานเฉพาะธุรกิจของคุณบน Amazon SageMaker AI โดยใช้ชุดเทคนิคในทุกขั้นตอนของการฝึกโมเดล ความสามารถเหล่านี้พร้อมใช้งานในรูปแบบสูตร SageMaker ที่พร้อมใช้งาน ช่วยให้ลูกค้าสามารถปรับโมเดล Nova ได้ตลอดวงจรชีวิตของโมเดล รวมถึงการปรับแต่งอย่างละเอียด การจัดตำแหน่ง และการฝึกอบรมล่วงหน้าโดยกำกับดูแล
เครื่องมือในตัวสำหรับการโต้ตอบและการตรวจสอบ
Amazon SageMaker กับ MLflow
ใช้ประโยชน์จาก MLflow ร่วมกับการฝึกอบรม SageMaker เพื่อจัดเก็บพารามิเตอร์อินพุต การกำหนดค่า และผลลัพธ์ ช่วยให้คุณสามารถระบุโมเดลที่มีประสิทธิภาพที่ดีที่สุดสำหรับกรณีการใช้งานของคุณได้อย่างรวดเร็ว UI ของ MLflow ช่วยให้คุณสามารถวิเคราะห์ความพยายามในการฝึกโมเดลและลงทะเบียนโมเดลตัวเลือกสำหรับการผลิตได้อย่างง่ายดายด้วยขั้นตอนสั้นๆ เพียงขั้นตอนเดียว

Amazon SageMaker กับ TensorBoard
Amazon SageMaker พร้อม TensorBoard ช่วยให้คุณสามารถประหยัดเวลาในการพัฒนาโดยการแสดงภาพสถาปัตยกรรมโมเดลเพื่อระบุและแก้ไขปัญหาการบรรจบกัน เช่น การสูญเสียการตรวจสอบที่ไม่มาบรรจบกันหรือการไล่ระดับที่หายไป
