AWS Trainium
Trainium – được thiết kế chuyên biệt cho AI hiệu suất cao, tiết kiệm chi phí trên quy mô lớn
Tại sao nên sử dụng Trainium?
AWS Trainium là một dòng sản phẩm trình tăng tốc AI chuyên biệt, bao gồm Trainium1, Trainium2 và Trainium3, được thiết kế nhằm mang lại hiệu suất có khả năng mở rộng và giúp tiết kiệm chi phí cho quá trình huấn luyện cũng như suy luận trên nhiều khối lượng công việc AI tạo sinh khác nhau.
Dòng sản phẩm AWS Trainium
Trainium1
Chip AWS Trainium thế hệ đầu tiên hỗ trợ các phiên bản Trn1 của Amazon Elastic Compute Cloud (Amazon EC2), trong đó tiết kiệm tới 50% chi phí huấn luyện so với các phiên bản Amazon EC2 tương đương. Nhiều khách hàng bao gồm Ricoh, Karakuri, SplashMusic và Arcee AI đang nhận thấy những lợi ích về hiệu suất và chi phí mà các phiên bản Trn1 mang lại.
Trainium2
Chip AWS Trainium2 tăng tới 4 lần hiệu suất so với Trainium thế hệ đầu tiên. Các phiên bản Amazon EC2 Trn2 dựa trên Trainium2 và Trn2 UltraServers được thiết kế chuyên biệt cho AI tạo sinh, giúp tiết kiệm chi phí tốt hơn từ 30% đến 40% so với các phiên bản EC2 P5e và P5en dựa trên GPU. Các phiên bản Trn2 sở hữu tối đa 16 chip Trainium2 và Trn2 UltraServers sở hữu tối đa 64 chip Trainium2 được liên kết với nhau bằng NeuronLink, công nghệ kết nối chip với chip độc quyền của chúng tôi. Bạn có thể sử dụng phiên bản Trn2 và UltraServers để huấn luyện và triển khai các mô hình đòi hỏi khắt khe nhất gồm các mô hình ngôn ngữ lớn (LLM), mô hình đa phương thức và bộ chuyển đổi khuếch tán để xây dựng một tập hợp các ứng dụng AI tạo sinh đa dạng thế hệ mới.
Trainium3
Chip AI 3nm đầu tiên của AWS được thiết kế chuyên biệt nhằm mang lại hiệu quả kinh tế trên mỗi đơn vị token tốt nhất cho các ứng dụng tác tử, suy luận và tạo video thế hệ mới. Chip AWS Trainium3 mang lại hiệu năng tính toán cao gấp 2 lần, đạt mức 2,52 petaflops (PFLOPs) cho định dạng tính toán FP8, đồng thời tăng dung lượng bộ nhớ lên 1,5 lần và băng thông lên 1,7 lần so với Trainium2, đạt 144 GB bộ nhớ HBM3e và băng thông bộ nhớ 4,9 TB/giây. Trn3 UltraServers tích hợp chip Trainium3 mang lại hiệu năng cao gấp 4,4 lần, băng thông bộ nhớ cao gấp 3,9 lần và hiệu quả sử dụng năng lượng tốt hơn gấp 4 lần so với Trn2 UltraServers. Trainium3 được thiết kế cho cả khối lượng công việc trong đó mọi phần tử dữ liệu đều được tính toán (dense) lẫn khối lượng công việc trong đó chỉ một số mô hình con chuyên biệt trong mô hình được kích hoạt cho mỗi đầu vào (expert-parallel) với các kiểu dữ liệu nâng cao (MXFP8 và MXFP4), đồng thời cải thiện sự cân bằng giữa bộ nhớ và hiệu năng điện toán cho các tác vụ thời gian thực, đa phương thức và suy luận.
Được thiết kế dành cho các nhà phát triển
Các máy chủ UltraServer thế hệ mới dựa trên Trainium3 được thiết kế dành cho các nhà nghiên cứu AI và có sự hỗ trợ của AWS Neuron SDK, nhằm khai mở hiệu năng đột phá.
Với khả năng tích hợp PyTorch gốc, các nhà phát triển có thể huấn luyện và triển khai mà không cần thay đổi một dòng mã nào. Đối với kỹ sư hiệu năng AI, chúng tôi đã hỗ trợ truy cập sâu hơn vào Trainium3 để nhà phát triển có thể tinh chỉnh hiệu năng, tùy chỉnh nhân và đẩy mô hình của bạn tiến xa hơn nữa. Sự cởi mở chính là nền tảng phát triển cho đổi mới. Do đó, chúng tôi cam kết tương tác với nhà phát triển của mình thông qua các công cụ và tài nguyên nguồn mở.
Để tìm hiểu thêm, hãy truy cập Amazon EC2 Trn3 UltraServers và khám phá bộ công cụ AWS Neuron SDK.
Lợi ích
Trn3 UltraServers sở hữu những cải tiến mới nhất trong công nghệ UltraServer mở rộng, với NeuronSwitch-v1 giúp tăng tốc các phương thức giao tiếp all-to-all trên tối đa 144 chip Trainium3. Trn3 UltraServer cung cấp tới 20,7 TB bộ nhớ HBM3e, băng thông bộ nhớ 706 TB/giây và 362 MXFP8 PFLOPs, mang lại hiệu năng cao gấp 4,4 lần và hiệu quả sử dụng năng lượng tốt hơn gấp 4 lần so với Trn2 UltraServer. Trn3 mang lại hiệu năng cao nhất với chi phí thấp nhất cho quá trình huấn luyện và suy luận với các mô hình suy luận và MoE (Mixture of Experts) mới nhất có quy mô trên 1.000 tỷ tham số, đồng thời thúc đẩy thông lượng cao hơn đáng kể cho việc vận hành GPT-OSS trên quy mô lớn so với các phiên bản dựa trên Trainium2.
Trn2 UltraServers vẫn là lựa chọn có hiệu năng cao, tiết kiệm chi phí cho quá trình huấn luyện và suy luận các mô hình AI tạo sinh có quy mô lên tới 1.000 tỷ tham số. Các phiên bản Trn2 sở hữu tối đa 16 chip Trainium2, và Trn2 UltraServers sở hữu tối đa 64 chip Trainium2 được kết nối thông qua NeuronLink, công nghệ kết nối chip với chip độc quyền.
Các phiên bản Trn1 sở hữu tối đa 16 chip Trainium và mang lại hiệu năng tính toán lên tới 3 FP8 PFLOPs, 512 GB bộ nhớ HBM với băng thông bộ nhớ 9,8 TB/s, cùng kết nối mạng EFA lên tới 1,6 Tbps.
AWS Neuron SDK giúp bạn khai thác tối đa hiệu suất từ các phiên bản Trn3, Trn2 và Trn1 để bạn tập trung vào việc xây dựng và triển khai các mô hình cũng như rút ngắn thời gian đưa ra thị trường. AWS Neuron tích hợp nguyên bản với PyTorch, Jax cùng các thư viện thiết yếu như Hugging Face, vLLM, PyTorch Lightning và nhiều công cụ khác. Chip này tối ưu hóa các mô hình ngay từ đầu để huấn luyện và suy luận phân tán, đồng thời cung cấp khả năng quan sát chuyên sâu để lập hồ sơ và gỡ lỗi hiệu quả. AWS Neuron tích hợp với các dịch vụ như Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster và AWS Batch, cũng như các dịch vụ của bên thứ ba như Ray (Anyscale), Domino Data Lab và Datadog.
Để mang lại hiệu năng cao mà vẫn đáp ứng các mục tiêu về độ chính xác, AWS Trainium hỗ trợ nhiều kiểu dữ liệu đa dạng về tính chính xác
như BF16, FP16, FP8, MXFP8 và MXFP4. Để bắt kịp tốc độ đổi mới nhanh chóng của AI tạo sinh,
Trainium2 và Trainium3 được trang bị các tính năng tối ưu hóa phần cứng cho độ thưa gấp 4 lần (16:4), định dạng siêu tỷ lệ, làm tròn ngẫu nhiên
và các công cụ giao tiếp chuyên dụng.
Neuron cho phép các nhà phát triển tối ưu hóa khối lượng công việc thông qua Neuron Kernel Interface (NKI) để phục vụ việc phát triển nhân. NKI mở ra toàn bộ tập lệnh ISA của Trainium, cho phép kiểm soát hoàn toàn việc lập trình ở cấp độ lệnh, cấp phát bộ nhớ và lập lịch thực thi. Cùng với việc tự xây dựng các nhân riêng, nhà phát triển có thể sử dụng Neuron Kernel Library, một thư viện mã nguồn mở với các nhân đã được tối ưu hóa và sẵn sàng triển khai. Cuối cùng, Neuron Explore cung cấp khả năng hiển thị toàn diện, giúp kết nối mã nguồn của nhà phát triển trực tiếp xuống các công cụ thực thi trong phần cứng.
Khách hàng
Các khách hàng như Anthropic, Decart, poolside, Databricks, Ricoh, Karakuri, SplashMusic và nhiều đơn vị khác đang hiện thực hóa những lợi ích về hiệu năng và chi phí từ UltraServer cùng các phiên bản Trn1, Trn2 và Trn3.
Những đơn vị tiên phong ứng dụng Trn3 đang đạt được những cột mốc mới về hiệu suất và khả năng điều chỉnh quy mô cho thế hệ mô hình AI tạo sinh quy mô lớn tiếp theo.
Chinh phục hiệu năng, chi phí và quy mô của AI
AWS Trainium2 mang lại hiệu năng AI đột phá
Câu chuyện khách hàng về chip AI của AWS