Amazon SageMaker 模型訓練

訓練並微調機器學習和生成式 AI 模型

什麼是 Amazon SageMaker 模型訓練?

Amazon SageMaker 模型追蹤可大規模減少訓練和調整機器學習 (ML) 模型的時間和成本,而無需管理基礎設施。您可以利用目前可用的最高效能 ML 運算基礎設施,Amazon SageMaker AI 可以自動擴展基礎設施,從一個到數千個 GPU。為了更快訓練深度學習模型,SageMaker AI 可協助您即時選取和精煉資料集。SageMaker 分散式訓練程式庫可以在 AWS GPU 執行個體之間自動分割大型模型和訓練資料集,或者您可以使用第三方程式庫,例如 DeepSpeed、Horovod 或 Megatron。自動監控和修復訓練叢集,連續 數週和數月無中斷地訓練基礎模型 (FM)。

成本效益培訓的優勢

SageMaker AI 提供多種 GPU 和 CPU 選項及 AWS 加速器 (例如 AWS Trainium 和 AWS Inferentia),以支援大規模的模型訓練。您可以自動擴展或縮減基礎架構規模 (從一個到數千個 GPU)。
SageMaker AI 可讓您在 AWS 叢集執行個體中自動分割模型和訓練資料集,以協助您高效地擴展訓練工作負載。其可協助您針對 AWS 網路基礎架構和叢集拓樸最佳化訓練工作。您還可以使用最佳化的配方,從最先進的效能中受益,並在幾分鐘內快速開始訓練和微調公開可用的生成式 AI 模型。SageMaker AI 還透過最佳化儲存檢查點的頻率,利用配方簡化模型檢查點儲存作業,從而確保將訓練期間的開銷降至最低。
SageMaker AI 可以透過調整數千種不同的演算法參數組合,自動調校您的模型,進而達到最準確的預測。使用偵錯和分析工具快速更正效能問題並最佳化訓練效能。
SageMaker AI 可實現高效的 ML 實驗,協助您更輕鬆地追蹤 ML 模型迭代。藉由將模型架構視覺化來識別和修復融合問題,以改善模型訓練效能。

大規模訓練模型

全受管訓練任務

SageMaker 訓練任務可為大型分散式 FM 訓練提供全受管使用者體驗,從而消除基礎設施管理方面的無差異繁重工作。SageMaker 訓練任務會自動啟動具恢復能力的分散式訓練叢集,監控基礎設施,並自動復原故障,以確保順暢的訓練體驗。訓練完成後,SageMaker 會關閉叢集,並依淨訓練時間計費。此外,透過 SageMaker 訓練任務,您可以靈活地選擇適合個別工作負載的適當執行個體類型 (例如,在 P5 叢集上預先訓練大型語言模型 (LLM),或在 p4d 執行個體上微調開放原始碼 LLM),以進一步最佳化您的訓練預算。此外,SagerMaker 訓練工作還為具有不同程度技術專業知識和不同工作負載類型的機器學習團隊提供一致的使用者體驗。

進一步了解

SageMaker HyperPod

Amazon SageMaker HyperPod 是專門建置的基礎設施,可有效地管理運算叢集,以擴展基礎模型 (FM) 開發作業。它可實現進階模型訓練技術、基礎設施控制、效能最佳化,以及增強的模型可觀測性。SageMaker HyperPod 已使用 SageMaker 分散式訓練程式庫進行預先設定,讓您可在 AWS 叢集執行個體中自動分割模型和訓練資料集,以協助有效利用叢集的運算和網路基礎設施。它透過自動偵測、診斷和復原硬體故障,支援更具恢復能力的環境,讓您可連續數月不中斷地訓練 FM,從而減少高達 40% 的訓練時間。

進一步了解

高效能分散式訓練

SageMaker AI 透過在 AWS 加速器之間自動分割模型和訓練資料集,讓您更快地執行分散式訓練。其可協助您針對 AWS 網路基礎架構和叢集拓樸最佳化訓練工作。SageMaker AI 還透過最佳化儲存檢查點的頻率,利用配方簡化模型檢查點儲存作業,從而確保將訓練期間的開銷降至最低。

進一步了解

有效地自訂生成式 AI 和 ML 模型

Amazon SageMaker AI 支援使用自訂資料集來自訂 Amazon 專屬和公用基礎模型,而無需從頭開始訓練這些模型。所有技能組合的資料科學家和開發人員皆可使用最佳化配方,快速開始對公用和專屬生成式 AI 模型進行訓練和微調。每個配方都已經過 AWS 測試,能夠省去在數週內持續測試不同模型組態的繁瑣工作,進而實現最先進的效能。使用配方,您可以微調熱門的公用模型系列,包括 Llama、Mixtral 和 Mistral。此外,您還可以在 Amazon SageMaker AI 上使用一套技術套件,在模型訓練的所有階段自訂 Amazon Nova 基礎模型 (包括 Nova Micro、Nova Lite 和 Nova Pro),以滿足您的業務特定使用案例。這些功能可作為立即可用的 SageMaker 配方,讓客戶在整個模型生命週期中調整 Nova 模型,包括監督微調、校準和預先訓練。

進一步了解

用於互動和監控的內建工具

Amazon SageMaker with MLflow

利用 MLflow with SageMaker 培訓來擷取輸入參數、組態和結果,協助您快速找出適合自己使用案例的最佳模型。MLflow UI 只需快速一個步驟,就能讓您能分析模型訓練嘗試,並輕鬆註冊適用於生產的模型選項。

偵錯

Amazon SageMaker with TensorBoard

配備 TensorBoard 的 Amazon SageMaker 可藉由視覺化模型架構,以識別和修復融合問題,例如驗證損失不會融合或消失梯度,來協助您節省開發時間。

實驗管理

最新消息

  • Date (Newest to Oldest)
找不到結果
1