Khách hàng sử dụng Amazon SageMaker HyperPod

Các công ty khởi nghiệp và tổ chức AI hàng đầu thuộc mọi quy mô đang đào tạo và triển khai các mô hình nền tảng ở quy mô lớn trên SageMaker HyperPod

Hugging Face

Hugging Face đã sử dụng SageMaker HyperPod để tạo ra các mô hình nền tảng mở mới như StarCoder, IDEFICS và Zephyr. Khả năng phục hồi và hiệu năng được xây dựng có mục đích của HyperPod đã cho phép nhóm khoa học mở của họ tập trung vào việc đổi mới và công bố những cải tiến quan trọng về cách xây dựng các mô hình nền tảng, thay vì quản lý cơ sở hạ tầng.

Perplexity AI

Perplexity đã xây dựng và tinh chỉnh các LLM vận hành công cụ trả lời hội thoại của họ. Công cụ này trả lời câu hỏi kèm theo tài liệu tham khảo dưới dạng trích dẫn. Với SageMaker HyperPod, họ đào tạo mô hình nhanh hơn 40% và thực hiện các thí nghiệm với tốc độ gấp đôi. Đọc trường hợp điển hình.

Articul8 AI

Articul8 tăng năng suất lên đến 35% khi sử dụng SageMaker HyperPod. Đọc trường hợp điển hình.

Coastal Carbon

Coastal Carbon đang cách mạng hóa công cuộc bảo tồn môi trường thông qua trí tuệ nhân tạo và điện toán đám mây. Với SageMaker HyperPod, họ xử lý hàng nghìn petabyte dữ liệu vệ tinh lịch sử để tạo ra một bản sao kỹ thuật số và nền tảng của thế giới tự nhiên.

EvolutionaryScale

EvolutionaryScale là một công ty khởi nghiệp AI tiên phong cho phép các nhà khoa học hiểu, tưởng tượng và tạo ra protein. Với SageMaker HyperPod, họ đã đào tạo hơn 2 tỷ chuỗi protein, mở rộng giới hạn của kỹ thuật protein và khám phá thuốc.

Writer

Writer đang tiên phong trong kỷ nguyên mới của phát triển LLM. Họ đã đào tạo các mô hình hàng đầu trong ngành của họ trên HyperPod với tốc độ đào tạo mô hình nhanh hơn, độ trễ thấp hơn và hiệu suất AI được tối ưu hóa.

Noetik

Noetik là một công ty công nghệ sinh học gốc AI tận dụng SageMaker HyperPod để khám phá và phát triển các phương pháp điều trị ung thư. Đọc trường hợp điển hình.

  • Hugging Face

    Hugging Face đã sử dụng SageMaker HyperPod để tạo ra các mô hình nền tảng mở mới như StarCoder, IDEFICS và Zephyr. Khả năng phục hồi và hiệu năng được xây dựng có mục đích của HyperPod đã cho phép nhóm khoa học mở của họ tập trung vào việc đổi mới và công bố những cải tiến quan trọng về cách xây dựng các mô hình nền tảng, thay vì quản lý cơ sở hạ tầng.

    Xem video

    Hugging Face đã sử dụng SageMaker HyperPod để tạo ra các mô hình nền tảng mở mới quan trọng như StarCoder, IDEFICS và Zephyr – tất cả đều có hàng triệu lượt tải xuống. Khả năng phục hồi và hiệu suất được xây dựng có mục đích của SageMaker HyperPod đã cho phép nhóm khoa học mở của chúng tôi tập trung vào việc đổi mới và công bố những cải tiến quan trọng về cách xây dựng các mô hình nền tảng, thay vì quản lý cơ sở hạ tầng. Chúng tôi đặc biệt thích cách SageMaker HyperPod có thể phát hiện lỗi phần cứng ML và nhanh chóng thay thế phần cứng bị lỗi mà không làm gián đoạn quá trình đào tạo mô hình đang diễn ra. Vì các nhóm của chúng tôi cần đổi mới nhanh chóng nên tính năng khôi phục công việc tự động này đã giúp chúng tôi giảm thiểu sự gián đoạn trong quá trình đào tạo mô hình nền tảng, nhờ đó tiết kiệm được hàng trăm giờ đào tạo chỉ trong một năm.

    Jeff Boudier, Trưởng phòng sản phẩm tại Hugging Face
  • Perplexity AI

    Perplexity đã xây dựng và tinh chỉnh các LLM vận hành công cụ trả lời hội thoại của họ. Công cụ này trả lời câu hỏi kèm theo tài liệu tham khảo dưới dạng trích dẫn. Với SageMaker HyperPod, họ đào tạo mô hình nhanh hơn 40% và thực hiện các thí nghiệm với tốc độ gấp đôi.

    Đọc nghiên cứu điển hình

    Chúng tôi đang tìm kiếm cơ sở hạ tầng ML phù hợp để tăng năng suất và giảm chi phí nhằm xây dựng các mô hình ngôn ngữ lớn có hiệu suất cao. Sau khi chạy một vài thử nghiệm thành công, chúng tôi đã ngừng làm việc với các nhà cung cấp dịch vụ đám mây khác và chuyển sang AWS để sử dụng Amazon SageMaker HyperPod. Chúng tôi đã sử dụng HyperPod trong bốn tháng qua để xây dựng và tinh chỉnh các LLM nhằm hỗ trợ công cụ trả lời hội thoại Perplexity, công cụ này sẽ trả lời các câu hỏi và cung cấp tài liệu tham khảo dưới dạng trích dẫn. Vì SageMaker HyperPod tự động theo dõi tình trạng cụm và khắc phục lỗi GPU, nên các nhà phát triển của chúng tôi có thể tập trung vào việc xây dựng mô hình thay vì dành thời gian quản lý và tối ưu hóa cơ sở hạ tầng cơ bản. Thư viện lưu trữ song song dữ liệu và mô hình tích hợp của SageMaker HyperPod đã giúp chúng tôi tối ưu hóa thời gian đào tạo trên GPU và tăng gấp đôi thông lượng đào tạo. Do đó, các thử nghiệm đào tạo của chúng tôi giờ đây có thể chạy nhanh gấp đôi, đồng nghĩa với việc những nhà phát triển của chúng tôi có thể lặp lại nhanh hơn, đẩy nhanh quá trình phát triển các trải nghiệm AI tạo sinh mới cho khách hàng.

    Aravind Srinivas, Nhà đồng sáng lập và Giám đốc Điều hành tại Perplexity AI
  • Articul8 AI

    Đọc trường hợp điển hình

    Articul8 cho phép các công ty xây dựng các ứng dụng AI tạo sinh cấp doanh nghiệp một cách tinh vi. Là một công ty khởi nghiệp phát triển nhanh chóng trong lĩnh vực AI tạo sinh, Articul8 AI liên tục tối ưu hóa môi trường điện toán của họ để phân bổ tài nguyên điện toán tăng tốc một cách hiệu quả nhất có thể. Nhờ khả năng tự động ưu tiên tác vụ và phân bổ tài nguyên trong SageMaker HyperPod, họ đã nhận thấy mức sử dụng GPU cải thiện đáng kể, qua đó giảm thời gian nhàn rỗi và đẩy nhanh quá trình phát triển mô hình bằng cách tối ưu hóa các tác vụ từ đào tạo và tinh chỉnh đến suy luận. Khả năng tự động chuyển tài nguyên sang các tác vụ có mức độ ưu tiên cao đã tăng năng suất của đội ngũ, cho phép họ mang những đổi mới về AI tạo sinh mới ra thị trường nhanh hơn bao giờ hết. Renato Nascimento, Giám đốc Công nghệ tại Articul8 cho biết: “Với khả năng quan sát của SageMaker HyperPod, giờ đây chúng tôi có thể triển khai các hệ thống thu thập và hiển thị số liệu của mình chỉ bằng một cú nhấp chuột, tiết kiệm cho nhóm nhiều ngày thiết lập thủ công, đồng thời tăng cường khả năng quan sát cụm, quy trình làm việc và thông tin chuyên sâu”. “Các nhà khoa học dữ liệu của chúng tôi có thể nhanh chóng theo dõi các chỉ số hiệu suất tác vụ, chẳng hạn như độ trễ và xác định các vấn đề phần cứng mà không cần cấu hình thủ công. Khả năng quan sát của SageMaker HyperPod sẽ giúp hợp lý hóa các quy trình phát triển mô hình nền tảng của chúng tôi, cho phép chúng tôi tập trung vào sứ mệnh cung cấp các đổi mới AI đáng tin cậy và dễ tiếp cận đến khách hàng.

    Amazon SageMaker HyperPod đã giúp chúng tôi rất nhiều trong việc quản lý và vận hành các tài nguyên điện toán hiệu quả hơn với thời gian ngừng hoạt động tối thiểu. Chúng tôi là những người đầu tiên sử dụng dịch vụ HyperPod dựa trên Slurm và được hưởng lợi từ tính dễ sử dụng và khả năng phục hồi của dịch vụ này, giúp cải thiện năng suất lên tới 35% và nhanh chóng tăng quy mô theo tài nguyên cho các hoạt động GenAI của chúng tôi. Là một đơn vị Kubernetes, hiện chúng tôi rất vui mừng chào đón sự ra mắt tính năng hỗ trợ Amazon EKS cho SageMaker HyperPod. Đây là một bước đột phá đối với chúng tôi vì tính năng này tích hợp liền mạch với những quy trình đào tạo hiện có của chúng tôi, giúp chúng tôi quản lý và vận hành các cụm Kubernetes quy mô lớn dễ dàng hơn. Ngoài ra, điều này cũng giúp ích cho khách hàng cuối của chúng tôi vì giờ đây chúng tôi có thể đóng gói và đưa năng lực này vào nền tảng GenAI dưới dạng sản phẩm, cho phép khách hàng tự chạy chương trình đào tạo và tinh chỉnh khối lượng công việc theo cách hợp lý hơn.

    Arun Subramaniyan, Nhà sáng lập kiêm Giám đốc Điều hành của Articul8 AI
  • Thomson Reuters

    Đọc blog

    Thomson Reuters, một công ty công nghệ theo định hướng nội dung và AI toàn cầu, đã thử nghiệm khả năng quản trị tác vụ trong Amazon SageMaker HyperPod để giải quyết thách thức chính xung quanh việc ưu tiên khối lượng công việc. Nhờ khả năng quản trị nhiệm vụ, giờ đây họ có thể quản lý khối lượng công việc của khách hàng như yêu cầu suy luận cùng với các dự án phát triển mô hình đang diễn ra của riêng họ, đảm bảo ưu tiên các yêu cầu khẩn cấp của khách hàng mà không làm gián đoạn nghiên cứu nội bộ, giúp sử dụng tài nguyên tốt hơn và làm hài lòng khách hàng. John Duprey, Kỹ sư xuất sắc tại Thomson Reuters Labs cho biết: “Bằng cách sử dụng Amazon SageMaker HyperPod, chúng tôi có thể đáp ứng các yêu cầu đào tạo mô hình ngôn ngữ lớn. Khi sử dụng Amazon EKS trên SageMaker HyperPod, chúng tôi có thể tăng quy mô dung lượng theo tài nguyên và dễ dàng thực hiện các công việc đào tạo, cho phép chúng tôi khai thác lợi ích của LLM trong các lĩnh vực như tóm tắt và phân loại pháp lý.”

    Thomson Reuters đã đi đầu trong phát triển AI trong hơn 30 năm và chúng tôi cam kết cung cấp các giải pháp có ý nghĩa giúp khách hàng đưa ra kết quả nhanh hơn, với khả năng truy cập tốt hơn vào thông tin đáng tin cậy. Để đẩy nhanh quá trình đổi mới trong AI tạo sinh, ngoài việc hợp tác với các nhà cung cấp LLM, chúng tôi còn đang khám phá cách đào tạo những mô hình tùy chỉnh hiệu quả hơn bằng nội dung độc quyền và chuyên môn của con người. Thư viện đào tạo phân tán của SageMaker HyperPod giúp chúng tôi cải thiện hiệu suất đào tạo mô hình quy mô lớn. Và tính năng phục hồi của công cụ này giúp tiết kiệm thời gian khi chúng tôi giám sát và quản lý cơ sở hạ tầng. Việc đào tạo các mô hình nền tảng của chúng tôi trên SageMaker HyperPod sẽ giúp chúng tôi tăng tốc độ đưa sản phẩm ra thị trường và nhanh chóng cung cấp các giải pháp chất lượng cho khách hàng.

    Joel Hron, Trưởng bộ phận AI và Labs, Thomson Reuters và John Duprey, Kỹ sư xuất sắc, Thomson Reuters Labs
  • Stability AI

    Với tư cách là công ty AI tạo sinh nguồn mở hàng đầu, mục tiêu của chúng tôi là tối đa hóa khả năng tiếp cận AI hiện đại. Chúng tôi đang xây dựng các mô hình nền tảng với hàng chục tỷ tham số, đòi hỏi cơ sở hạ tầng có thể điều chỉnh quy mô hiệu suất đào tạo được tối ưu hóa. Với cơ sở hạ tầng được quản lý và thư viện tối ưu hóa của SageMaker HyperPod, chúng tôi có thể giảm hơn 50% thời gian và chi phí đào tạo. Việc này giúp hoạt động đào tạo mô hình của chúng tôi linh hoạt hơn và hiệu quả hơn, qua đó xây dựng được những mô hình hiện đại nhanh hơn.

    Emad Mostaque, Nhà sáng lập kiêm Giám đốc Điều hành, Stability AI
  • Recursal AI

    Toàn bộ quá trình đã được đơn giản hóa. Bằng cách sử dụng SageMaker HyperPod, chúng tôi có thể tận dụng các tính năng phục hồi cụm nhằm xác định và tự động khôi phục các công việc đào tạo từ điểm kiểm tra đã lưu gần đây nhất trong trường hợp xảy ra lỗi phần cứng. Chúng tôi chạy khối lượng công việc rất đa dạng – từ ứng dụng, suy luận và đào tạo – với Kubernetes làm nền tảng chung. Đối với chúng tôi, Amazon EKS với SageMaker HyperPod hoạt động rất ăn ý: các nút chỉ cần thả vào cụm của chúng tôi.

    Nathan Wilce, Trưởng bộ phận cơ sở hạ tầng/dữ liệu, Recursal
  • Hippocratic AI

    Hippocratic AI, một công ty AI phát triển Mô hình ngôn ngữ lớn (LLM) tập trung vào an toàn đầu tiên cho lĩnh vực chăm sóc sức khỏe. Để đào tạo LLM chính và các mô hình giám sát, Hippocratic AI cần đến tài nguyên điện toán mạnh mẽ, có lượng cầu lớn và khó có được. Các kế hoạch đào tạo linh hoạt của Amazon SageMaker HyperPod giúp họ truy cập vào Phiên bản P5 cho Amazon Elastic Compute Cloud (Amazon EC2) một cách dễ dàng hơn. Hippocratic AI cũng đang tận dụng các dịch vụ AWS như Grafana để theo dõi các chỉ số quan trọng về mức sử dụng GPU. Nhờ sử dụng Phiên bản P5 cho Amazon EC2, Hippocratic AI đã tăng tốc độ đào tạo mô hình lên bốn lần và điều chỉnh quy mô giải pháp của mình cho phù hợp với hàng trăm trường hợp sử dụng. Phiên bản này giúp họ có được tài nguyên điện toán cần thiết và đào tạo các mô hình một cách nhanh chóng.

  • NinjaTech

     

    NinjaTech AI, một công ty AI tạo sinh cung cấp SuperAgent đa dụng nhằm đạt năng suất vô hạn, đã sử dụng các kế hoạch đào tạo linh hoạt của Amazon SageMaker HyperPod để tăng tốc độ tinh chỉnh các mô hình nội bộ khác nhau, bao gồm mô hình Llama 3.1 405B, nhằm giảm chi phí đào tạo mô hình và tự động hóa quy trình. Công ty đặt mục tiêu cung cấp một trải nghiệm liền mạch cho người dùng muốn truy cập vào các tác tử AI khác nhau để hỗ trợ cho Công nghệ SuperAgent của họ. Để đạt được điều này, họ cần một mô hình có thể tự động dự đoán ý định của người dùng và xác định tác tử AI nào sẽ phù hợp với ý định đó. Cơ chế này đòi hỏi thường xuyên cập nhật mô hình bằng cách kết hợp phản hồi của khách hàng và các tính năng mới một cách lặp đi lặp lại, trong đó mỗi lần tinh chỉnh LoRA bao gồm từ 10 triệu đến 100 triệu token. Là một công ty khởi nghiệp, việc có được và vận hành các tài nguyên điện toán hiệu năng cao là cả một thách thức do các vấn đề lớn về chi phí và băng thông, đặc biệt là trong các cụm nhiều nút liên quan đến mạng tốc độ cao và lưu trữ nhanh cùng với điện toán tăng tốc. Ngoài ra, quá trình đào tạo tốn thời gian, bao gồm các bước như tải xuống mô hình, đào tạo phân tán, điểm kiểm tra, giám sát, tự động khắc phục, hợp nhất và lượng tử hóa. Các kế hoạch đào tạo linh hoạt của HyperPod đã cung cấp cho công ty tài nguyên điện toán đáng tin cậy, có giá cả phải chăng trước khi tiến hành đào tạo, phù hợp với các yêu cầu điện toán và lịch trình cụ thể của họ, đồng thời đảm bảo đào tạo mô hình hiệu quả.

  • OpenBabylon

    Các nhà phát triển và nhà khoa học dữ liệu tại OpenBabylon, một công ty AI tùy chỉnh các mô hình ngôn ngữ lớn cho các ngôn ngữ chưa được hỗ trợ nhiều, đã sử dụng các kế hoạch đào tạo linh hoạt của SageMaker HyperPod trong vài tháng để hợp lý hóa việc truy cập vào tài nguyên GPU nhằm chạy các thử nghiệm quy mô lớn. Sử dụng khả năng đào tạo phân tán của SageMaker HyperPod nhiều nút, họ đã tiến hành 100 thí nghiệm đào tạo mô hình quy mô lớn, đạt được kết quả rất tốt trong việc dịch tiếng Anh sang tiếng Ukraina. Bước đột phá này diễn ra đúng thời hạn và tiết kiệm chi phí, thể hiện khả năng của SageMaker HyperPod trong việc thực hiện thành công các dự án phức tạp đúng thời hạn và hợp ngân sách.

  • Salesforce

    Các nhà nghiên cứu tại Salesforce tìm cách nhanh chóng bắt đầu đào tạo mô hình nền tảng và tinh chỉnh mà không phải lo lắng về cơ sở hạ tầng hoặc dành hàng tuần để tối ưu hóa ngăn xếp đào tạo của họ cho từng mô hình mới. Với công thức của Amazon SageMaker HyperPod, các nhà nghiên cứu tại Salesforce có thể tiến hành xây dựng nguyên mẫu nhanh chóng khi tùy chỉnh FM. Giờ đây, các đội ngũ Nghiên cứu AI của Salesforce có thể bắt đầu làm việc trong vài phút với đa dạng các công thức đào tạo trước và tinh chỉnh, đồng thời có thể vận hành các mô hình tiên phong với hiệu năng cao.

  • H.AI

    Với Amazon SageMaker HyperPod, chúng tôi đã xây dựng và triển khai các mô hình nền tảng đằng sau nền tảng AI trợ lý ảo của mình bằng cùng hệ thống tính toán hiệu suất cao đó. Sự chuyển đổi liền mạch này từ đào tạo sang suy luận đã hợp lý hóa quy trình làm việc của chúng tôi, giảm thời gian sản xuất và đảm bảo hiệu suất nhất quán trong môi trường vận hành thực tế. HyperPod đã giúp chúng tôi đi từ thử nghiệm sang tác động trong thế giới thực với tốc độ và hiệu quả cao hơn.

    Laurent Sifre, Đồng sáng lập & CTO, H.AI
  • Datology AI

    Chúng tôi rất hào hứng khi được sử dụng giải pháp quan sát một lần nhấp của Amazon SageMaker HyperPod. Các thành viên cấp cao trong nhóm của chúng tôi cần có cái nhìn sâu sắc về cách chúng tôi đang sử dụng các tài nguyên GPU đắt tiền. Bảng điều khiển Grafana được xây dựng sẵn sẽ cung cấp cho chúng tôi chính xác những gì chúng tôi cần, với khả năng hiển thị ngay lập tức về các chỉ số quan trọng - từ việc sử dụng GPU cụ thể cho nhiệm vụ đến hiệu suất hệ thống tệp (FSx for Lustre) - mà không cần duy trì cơ sở hạ tầng giám sát. Là một người đánh giá cao sức mạnh của Ngôn ngữ truy vấn Prometheus, tôi thích việc có thể tự viết truy vấn và phân tích các chỉ số tùy chỉnh mà không phải lo lắng về hạ tầng.

    Josh Wills, Thành viên bộ phận Kỹ thuật, Datology AI

Đối tác của Amazon SageMaker HyperPod

 

Thúc đẩy đổi mới và mở khóa giá trị kinh doanh lớn hơn với các đối tác AWS sở hữu kiến thức kỹ thuật chuyên sâu và khả năng giúp khách hàng thành công đã được kiểm chứng

  • Accenture

    Chúng tôi đang mở rộng quan hệ đối tác với AWS với tư cách là đối tác ra mắt cho quản trị tác vụ Amazon SageMaker HyperPod. Quan hệ hợp tác với AWS sẽ cho phép chúng tôi hướng dẫn khách hàng hướng tới những đột phá công nghệ mới nhất đồng thời giúp giảm chi phí ứng dụng AI tạo sinh. Bằng cách kết hợp các khả năng quản trị tập trung trong SageMaker HyperPod cũng như nhờ kinh nghiệm của chúng tôi trong các dự án AI tạo sinh, chúng tôi có thể giúp các công ty nhận ra giá trị của AI tạo sinh nhanh hơn nữa, cải thiện trải nghiệm của khách hàng và tăng lợi tức đầu tư.

    Jennifer Jackson, Trưởng nhóm kinh doanh Accenture AWS toàn cầu và Giám đốc điều hành cấp cao
  • Slalom

    Chúng tôi rất vui mừng được hợp tác với AWS với tư cách là đối tác ra mắt cho quản trị tác vụ Amazon SageMaker HyperPod. Nhờ làm việc với AWS, giờ đây chúng tôi có thể giúp khách hàng nhanh chóng áp dụng những tiến bộ công nghệ mới nhất và giảm chi phí cho các ứng dụng AI tạo sinh của họ. Bằng cách kết hợp khả năng quản trị tập trung trong SageMaker HyperPod với trải nghiệm AI và đám mây phong phú của Slalom, chúng tôi có thể mang lại trải nghiệm khách hàng đặc biệt cùng với việc tăng lợi tức đầu tư.

    Jeff Kempiners, Giám đốc Điều hành Trung tâm Xuất sắc Amazon (CoE) của Slalom
  • Rackspace Technology

    Chúng tôi rất vui mừng được hợp tác với AWS với tư cách là đối tác ra mắt cho quản trị tác vụ SageMaker HyperPod. Chúng tôi có thể cùng nhau giúp khách hàng giảm chi phí cho các ứng dụng AI tạo sinh, đồng thời theo kịp những tiến bộ công nghệ mới nhất. Bằng cách kết hợp khả năng quản trị tập trung của SageMaker HyperPod với chuyên môn sâu về AI và đám mây của Rackspace, chúng tôi có thể chuyển đổi trải nghiệm của khách hàng, đồng thời cải thiện lợi tức đầu tư của họ.

    Srini Koushik, Chủ tịch phụ trách AI, công nghệ và phát triển bền vững, Rackspace Technology