Đào tạo mô hình SageMaker là gì?
Đào tạo mô hình Amazon SageMaker giúp giảm thời gian và chi phí đào tạo đồng thời điều chỉnh các mô hình máy học (ML) trên quy mô lớn mà không cần quản lý cơ sở hạ tầng. Bạn có thể tận dụng cơ sở hạ tầng điện toán ML hiệu năng cao nhất hiện có và Amazon SageMaker AI có thể tự động điều chỉnh quy mô cơ sở hạ tầng tăng hoặc giảm, từ một đến hàng nghìn GPU. Để đào tạo các mô hình học sâu nhanh hơn, SageMaker AI giúp bạn chọn và tinh chỉnh các tập dữ liệu trong thời gian thực. Thư viện đào tạo phân tán SageMaker có thể tự động phân chia các mô hình lớn và tập dữ liệu đào tạo trên các phiên bản GPU AWS hoặc bạn có thể sử dụng thư viện của bên thứ ba, chẳng hạn như DeepSpeed, Horovod hoặc Megatron. Đào tạo các mô hình nền tảng (FM) trong nhiều tuần và nhiều tháng mà không bị gián đoạn bằng cách tự động theo dõi và sửa chữa các cụm đào tạo.
Lợi ích của hoạt động đào tạo tiết kiệm chi phí
Mô hình đào tạo theo quy mô
Tác vụ đào tạo được quản lý toàn phần
Tác vụ đào tạo của SageMaker mang đến trải nghiệm người dùng được quản lý toàn phần cho hoạt động đào tạo FM phân tán lớn, loại bỏ phần công việc nặng nhọc, lặp lại xung quanh việc quản lý cơ sở hạ tầng. Tác vụ đào tạo của SageMaker tự động khởi động một cụm đào tạo phân tán có khả năng phục hồi mạnh, giám sát cơ sở hạ tầng và tự động phục hồi sau khi xảy ra lỗi để đảm bảo trải nghiệm đào tạo mượt mà. Sau khi hoàn tất đào tạo, SageMaker sẽ chấm dứt cụm và bạn sẽ được tính phí cho thời gian đào tạo thực tế. Ngoài ra, với tác vụ đào tạo của SageMaker, bạn có thể linh hoạt chọn loại phiên bản phù hợp nhất với từng khối lượng công việc đơn lẻ (ví dụ: đào tạo trước mô hình ngôn ngữ lớn (LLM) trên cụm P5 hoặc tinh chỉnh LLM nguồn mở trên phiên bản p4d) để tối ưu hóa hơn nữa ngân sách đào tạo. Ngoài ra, tác vụ đào tạo của SagerMaker cũng cung cấp trải nghiệm người dùng nhất quán trên toàn đội ngũ ML có mức độ chuyên môn kỹ thuật khác nhau và loại khối lượng công việc khác nhau.
SageMaker HyperPod
Amazon SageMaker HyperPod là một cơ sở hạ tầng được xây dựng có mục đích để quản lý hiệu quả các cụm điện toán nhằm điều chỉnh quy mô phát triển mô hình nền tảng (FM). Cơ sở hạ tầng này cho phép áp dụng các kỹ thuật đào tạo mô hình tiên tiến, kiểm soát cơ sở hạ tầng, tối ưu hóa hiệu năng và khả năng quan sát mô hình nâng cao. Vì SageMaker HyperPod được cấu hình sẵn với các thư viện đào tạo phân tán của SageMaker nên bạn có thể tự động phân chia mô hình và tập dữ liệu đào tạo của mình ra các phiên bản cụm AWS để tận dụng cơ sở hạ tầng điện toán và mạng của cụm một cách hiệu quả. Cơ sở hạ tầng này mang đến môi trường có khả năng phục hồi mạnh hơn bằng cách tự động phát hiện, chẩn đoán và phục hồi sau khi xảy ra lỗi phần cứng, qua đó giúp bạn liên tục đào tạo các mô hình nền tảng (FM) trong nhiều tháng mà không bị gián đoạn, giúp giảm thời gian đào tạo lên tới 40%.
Đào tạo phân tán có hiệu suất cao
SageMaker AI giúp thực hiện đào tạo phân tán nhanh hơn bằng cách tự động chia tách các mô hình và tập dữ liệu đào tạo của bạn trên các trình tăng tốc của AWS. SageMaker AI giúp bạn tối ưu hóa tác vụ đào tạo cho cơ sở hạ tầng mạng AWS và cấu trúc liên kết cụm. SageMaker AI cũng hợp lý hóa việc kiểm tra có điểm lưu đối với mô hình theo công thức bằng cách tối ưu hóa tần suất lưu các điểm kiểm tra, đảm bảo chi phí ở mức tối thiểu trong quá trình đào tạo.
Tùy chỉnh mô hình ML và AI tạo sinh hiệu quả
Amazon SageMaker AI cho phép tùy chỉnh cả mô hình nền tảng độc quyền và công khai của Amazon thông qua tập dữ liệu tùy chỉnh, từ đó loại bỏ nhu cầu đào tạo mô hình từ đầu. Nhà khoa học dữ liệu và nhà phát triển ở mọi cấp độ kỹ năng có thể nhanh chóng bắt đầu với việc đào tạo và tinh chỉnh mô hình AI tạo sinh công khai cũng như độc quyền bằng các công thức tối ưu hóa. Mỗi công thức đã được AWS kiểm thử, giúp bạn không phải tốn nhiều tuần làm việc tẻ nhạt khi kiểm thử các cấu hình mô hình khác nhau để đạt được hiệu năng tiên tiến. Nhờ có công thức, bạn có thể tinh chỉnh các bộ mô hình phổ biến được công khai bao gồm Llama, Mixtral và Mistral. Ngoài ra, bạn có thể tùy chỉnh các mô hình nền tảng Amazon Nova, bao gồm Nova Micro, Nova Lite và Nova Pro cho các trường hợp sử dụng cụ thể cho doanh nghiệp của mình trên Amazon SageMaker AI bằng cách sử dụng một bộ kỹ thuật trên tất cả các giai đoạn đào tạo mô hình. Được cung cấp dưới dạng công thức SageMaker sẵn sàng để sử dụng, các tính năng này cho phép khách hàng điều chỉnh các mô hình Nova trong toàn bộ vòng đời của mô hình, bao gồm tinh chỉnh có giám sát, điều chỉnh và đào tạo trước.
Các công cụ tích hợp dùng để tương tác và giám sát
Amazon SageMaker với MLflow
Sử dụng MLflow với đào tạo SageMaker để nắm bắt các thông số đầu vào, cấu hình và kết quả, giúp bạn nhanh chóng xác định các mô hình hoạt động tốt nhất cho trường hợp sử dụng của bạn. Giao diện người dùng MLflow cho phép bạn phân tích các lần đào tạo mô hình và dễ dàng đăng ký các mô hình ứng viên cho môi trường sản xuất trong một bước nhanh chóng.

Amazon SageMaker với TensorBoard
Amazon SageMaker với TensorBoard giúp bạn tiết kiệm thời gian phát triển bằng cách trực quan hóa kiến trúc mô hình để xác định và khắc phục các vấn đề hội tụ, chẳng hạn như tổn thất xác thực không hội tụ hoặc gradient biến mất.
