Amazon SageMaker HyperPod özellikleri
Binlerce yapay zeka hızlandırıcısında üretken yapay zeka modeli geliştirmeyi ölçeklendirin ve hızlandırın
Görev yönetişimi
Amazon SageMaker HyperPod, eğitim ve çıkarım gibi üretken yapay zekâ modeli geliştirme görevlerinde işlem kaynağı tahsisi üzerinde tam görünürlük ve kontrol sağlar. SageMaker HyperPod görev kuyruklarını otomatik olarak yönetir ve en kritik görevlerin önceliklendirilmesini sağlarken, model geliştirme maliyetlerini düşürmek için bilgi işlem kaynaklarını daha verimli kullanır. Yöneticiler birkaç kısa adımda farklı görevler için öncelikler tanımlayabilir ve her ekibin veya projenin kaç işlem kaynağı kullanabileceğine ilişkin sınırlar belirleyebilir. Ardından, veri bilimcileri ve geliştiricileri, yöneticinin belirlediği bilgi işlem kaynağı sınırlarına ve önceliklerine bağlı kalarak SageMaker HyperPod'un otomatik olarak çalıştırdığı görevler (örneğin, bir eğitim çalışması, belirli bir modelde ince ayar yapma veya eğitimli bir model üzerinde tahminler yapma) oluşturur. Yüksek öncelikli bir görevin hemen tamamlanması gerektiğinde tüm bilgi işlem kaynakları kullanımdaysa, SageMaker HyperPod, bilgi işlem kaynaklarını otomatik olarak düşük öncelikli görevlerden kurtarır. Ek olarak, SageMaker HyperPod, bekleyen görevleri hızlandırmak için boş bilgi işlem kaynaklarını otomatik olarak kullanır. SageMaker HyperPod, yöneticilerin çalışan veya bilgi işlem kaynaklarını bekleyen görevleri izleyebilecekleri ve denetleyebilecekleri bir gösterge tablosu sağlar.
Esnek eğitim planları
Eğitim zaman çizelgelerinizi ve bütçelerinizi karşılamak için SageMaker HyperPod, birden fazla bilgi işlem kapasitesi bloğundan bilgi işlem kaynaklarını kullanan en uygun maliyetli eğitim planlarını oluşturmanıza yardımcı olur. Eğitim planlarını onayladıktan sonra, SageMaker HyperPod altyapıyı otomatik olarak sağlar ve bu bilgi işlem kaynakları üzerinde herhangi bir manuel müdahale gerektirmeden eğitim işlerini çalıştırır. İşleri hesaplama kullanılabilirliği ile uyumlu hale getirmek üzere eğitim sürecini yönetmek için haftalarca çabadan tasarruf edersiniz.
Modelleri özelleştirmek için optimize edilmiş tarifler
SageMaker HyperPod tarifleri, beceri düzeyleri ne olursa olsun tüm veri bilimcileri ve geliştiricilerin Llama, Mixtral, Mistral ve DeepSeek gibi herkese açık üretken yapay zeka modellerini hızla eğitmeye ve ince ayarlamaya başlarken en yüksek performanstan yararlanmasına yardımcı olur. Ayrıca Nova Micro, Nova Lite ve Nova Pro dahil olmak üzere Amazon Nova altyapı modellerini Denetimli İnce Ayar (SFT), Bilgi Damıtma, Doğrudan Tercih Optimizasyonu (DPO), Proksimal Politika Optimizasyonu ve Sürekli Ön Eğitim gibi bir dizi teknik kullanarak özelleştirebilirsiniz. SFT, Damıtma ve DPO genelinde parametre açısından verimli ve tam model eğitim seçenekleri desteklenir. Her tarif, AWS tarafından test edilmiş ve farklı model yapılandırmalarını test eden haftalarca süren sıkıcı çalışmaları ortadan kaldıran bir eğitim yığını içerir. Tek satırlı bir tarif değişikliği ile GPU tabanlı ve AWS Trainium tabanlı bulut sunucuları arasında geçiş yapabilir, geliştirilmiş eğitim esnekliği için otomatik model kontrol işaretlemesini etkinleştirebilir ve SageMaker HyperPod üzerinde üretimde iş yüklerini çalıştırabilirsiniz.
Yüksek performanslı dağıtılmış eğitim
SageMaker HyperPod, modellerinizi ve eğitim veri kümelerinizi AWS hızlandırıcılar arasında otomatik olarak bölerek dağıtılmış eğitim gerçekleştirmeyi daha hızlı hale getirir. AWS ağ altyapısı ve küme topolojisi için eğitim işinizi optimize etmenize ve kontrol noktalarını kaydetme sıklığını optimize ederek eğitim sırasında minimum ek yük sağlayarak model kontrol işaretlemeyi kolaylaştırmanıza yardımcı olur.
Gelişmiş gözlemlenebilirlik ve deney araçları
SageMaker HyperPod gözlemlenebilirliği, Amazon Managed Grafana'da önceden yapılandırılmış birleşik bir gösterge tablosu sağlar ve izleme verileri bir Amazon Tarafından Yönetilen Prometheus çalışma alanında otomatik olarak yayınlanır. Gerçek zamanlı performans ölçümlerini, kaynak kullanımını ve küme durumunu tek bir görünümde görebilir, böylece ekiplerin darboğazları hızla tespit etmesine, maliyetli gecikmeleri önlemesine ve işlem kaynaklarını optimize etmesine olanak tanır. HyperPod ayrıca, Amazon CloudWatch Container Öngörüleri ile entegredir; böylece küme performansı, durumu ve kullanım hakkında daha derin öngörüler sağlar. SageMaker'daki yönetilen TensorBoard, yakınsama sorunlarını tanımlamak ve düzeltmek için model mimarisini görselleştirerek geliştirme süresinden tasarruf etmenize yardımcı olur. SageMaker'daki yönetilen MLflow, deneyleri uygun ölçekte verimli bir şekilde yönetmenize yardımcı olur.

İş yükü planlaması ve düzenlemesi
SageMaker HyperPod kullanıcı arabirimi, Slurm veya Amazon Esnek Kubernetes Hizmeti (Amazon EKS) kullanılarak son derece özelleştirilebilir. Gerekli tüm çerçeveleri veya araçları seçebilir ve yükleyebilirsiniz. Tüm kümeler, seçtiğiniz bulut sunucusu türü ve sayısı ile sağlanır ve iş yükleri arasında kullanmanız için saklanır. SageMaker HyperPod'daki Amazon EKS desteği sayesinde, kümeleri tutarlı bir Kubernetes tabanlı yönetici deneyimiyle yönetebilir ve çalıştırabilirsiniz. Eğitimden ince ayarlamaya ve çıkarıma kadar iş yüklerini verimli bir şekilde çalıştırın ve ölçeklendirin. Ayrıca işlem kapasitesini paylaşabilir ve farklı iş yükleri türleri için Slurm ve Amazon EKS arasında geçiş yapabilirsiniz.
Otomatik küme durumu denetimi ve onarımı
Model geliştirme iş yükü sırasında herhangi bir bulut sunucusu arızalanırsa, SageMaker HyperPod altyapı sorunlarını otomatik olarak algılar ve giderir. Hatalı donanımı tespit etmek için SageMaker HyperPod düzenli olarak hızlandırıcı ve ağ bütünlüğüne yönelik bir dizi durum denetimi çalıştırır.
SageMaker Jumpstart'tan açık ağırlık model dağıtımlarını hızlandırın
SageMaker HyperPod, SageMaker JumpStart'tan açık ağırlıkta temel modellerinin ve S3 ve FSx'den ince ayarlanmış modellerin dağıtımını otomatik olarak kolaylaştırır. HyperPod, gerekli altyapıyı otomatik olarak sağlar ve uç noktaları yapılandırarak manuel provizyonu ortadan kaldırır. HyperPod görev yönetişimi ile uç nokta trafiği sürekli olarak izlenir ve işlem kaynaklarını dinamik olarak ayarlarken, aynı zamanda gerçek zamanlı izleme ve optimizasyon için kapsamlı performans ölçümleri gözlemlenebilirlik panosunda yayınlanır.
