شرائح الذكاء الاصطناعي من AWS

AWS Trainium

Trainium — مُصمَّم خصيصًا لتوفير أداء عالٍ وكفاءة في التكلفة للذكاء الاصطناعي على نطاق واسع

ما سبب أهمية Trainium؟

تمثل AWS Trainium مجموعة من مُسرّعات الذكاء الاصطناعي المصممة خصيصًا — Trainium1 وTrainium2 وTrainium3 — بهدف توفير أداء قابل للتوسع وكفاءة في التكلفة لعمليات التدريب والاستدلال عبر نطاق واسع من أعباء عمل الذكاء الاصطناعي المولّد.

مجموعة AWS Trainium

Trainium1

تعمل شريحة AWS Trainium من الجيل الأول على تشغيل مثيلات Amazon Elastic Compute Cloud‏ (Amazon EC2) Trn1، التي تقل تكاليف التدريب فيها بنسبة تصل إلى 50% عن مثيلات Amazon EC2 المماثلة. يحقق العديد من العملاء، مثل Ricoh وKarakuri وSplashMusic وArcee AI، فوائد في الأداء والتكلفة عند استخدام مثيلات Trn1.

Trainium2

توفر شريحة AWS Trainium2 ما يصل إلى 4 أضعاف أداء الجيل الأول من Trainium. تم تصميم مثيلات Amazon EC2 Trn2 المستندة إلى Trainium2 وخوادم Trn2 UltraServers خصيصًا للذكاء الاصطناعي المولّد وتوفر أداء سعريًا أفضل بنسبة 30-40% من مثيلات EC2 P5e وP5en المستندة إلى وحدة معالجة الرسومات. تحتوي مثيلات Trn2 على ما يصل إلى 16 شريحة Trainium2، بينما تضم Trn2 UltraServers ما يصل إلى 64 شريحة Trainium2 متصلة عبر NeuronLink، وهي تقنية الربط الخاصة بنا بين الشرائح. يمكنك استخدام مثيلات Trn2 و UltraServers لتدريب ونشر النماذج الأكثر تطلبًا بما في ذلك نماذج اللغات الكبيرة (LLMs) والنماذج متعددة الوسائط ومحولات الانتشار، لبناء مجموعة واسعة من تطبيقات الذكاء الاصطناعي المولد من الجيل التالي.

Trainium3

أول شريحة ذكاء اصطناعي بدقة 3 نانومتر من AWS — مُصمَّمة خصيصًا لتقديم أفضل كفاءة للرموز لتطبيقات الجيل التالي القائمة على الوكلاء، والاستدلال، وتوليد الفيديو توفّر شريحة AWS Trainium3 أداء حوسبة أعلى بمقدار 2x يصل إلى 2.52 بيتافلوب (PFLOPs) من حوسبة FP8، وتزيد سعة الذاكرة بمقدار 1.5x وعرض النطاق الترددي بمقدار 1.7x مقارنةً بـ Trainium2 لتصل إلى 144 جيجابايت من ذاكرة HBM3e، و4.9 تيرابايت/ثانية من عرض نطاق الذاكرة. تقدّم Trn3 UltraServers، المعتمدة على Trainium3، أداءً أعلى يصل إلى 4.4 أضعاف، وعرض نطاق ذاكرة أعلى بمقدار 3.9 أضعاف، وكفاءة طاقة محسّنة بأكثر من 4 أضعاف مقارنةً بـ Trn2 UltraServers. تم تصميم Trainium3 لكل من أعباء العمل الكثيفة والمتوازية للخبراء مع أنواع بيانات متقدمة (MXFP8 وMXFP4) وتوازن محسّن بين الذاكرة والحوسبة للمهام في الوقت الفعلي والمتعددة الوسائط والاستدلال.

تم تصميمه للمطورين

تم تصميم خوادم UltraServers الجديدة المستندة إلى Trainium3 للباحثين في مجال الذكاء الاصطناعي ويتم تشغيلها بواسطة AWS Neuron SDK، لإطلاق العنان للأداء الخارق.

مع التكامل الأصلي لـ PyTorch، يمكن للمطورين التدريب والنشر دون تغيير سطر واحد من التعليمات البرمجية. بالنسبة لمهندسي أداء الذكاء الاصطناعي، قمنا بتمكين وصول أعمق إلى Trainium3 حتى يتمكن المطورون من ضبط الأداء، وتخصيص النوى، ودفع النماذج إلى أبعد من ذلك. نظرًا لأن الابتكار يزدهر بالانفتاح، فنحن ملتزمون بالتفاعل مع مطورينا من خلال الأدوات والموارد مفتوحة المصدر.

لمعرفة المزيد، يُرجى زيارة Amazon EC2 Trn3 UltraServers، واستكشاف مجموعة تطوير AWS Neuron.

الفوائد

تتضمن Trn3 UltraServers أحدث الابتكارات في تقنية UltraServer للتوسّع الرأسي، مع NeuronSwitch-v1 لتسريع عمليات all-to-all الجماعية عبر ما يصل إلى 144 شريحة Trainium3. تقدّم Trn3 UltraServer ما يصل إلى 20.7 تيرابايت من ذاكرة HBM3e، و706 تيرابايت/ثانية من عرض نطاق الذاكرة، و362 MXFP8 بيتافلوب (PFLOPs)، مع أداء أعلى يصل إلى 4.4x وكفاءة طاقة محسّنة بأكثر من 4x مقارنةً بـ Trn2 UltraServers. تقدّم Trn3 أعلى مستوى من الأداء بأقل تكلفة لعمليات التدريب والاستدلال مع أحدث نماذج MoE ونماذج الاستدلال التي تحتوي على أكثر من 1T معلمة، كما توفر معدل إنتاجية أعلى بكثير لخدمة GPT-OSS على نطاق واسع مقارنةً بالمثيلات القائمة على Trainium2.

لا تزال Trn2 UltraServers خيارًا يوفر أداءً عاليًا وكفاءة في التكلفة لتدريب واستدلال نماذج الذكاء الاصطناعي التوليدي حتى 1T معلمة. تحتوي مثيلات Trn2 على ما يصل إلى 16 شريحة Trainium2، بينما تضم Trn2 UltraServers ما يصل إلى 64 شريحة Trainium2 متصلة باستخدام NeuronLink، وهي تقنية ربط خاصة بين الشرائح.

تحتوي مثيلات Trn1 على ما يصل إلى 16 شريحة Trainium وتوفر ما يصل إلى 3 FP8 بيتافلوب (PFLOPs)، و512 غيغابايت من ذاكرة HBM مع عرض نطاق يبلغ 9.8 تيرابايت/ثانية، بالإضافة إلى ما يصل إلى 1.6 تيرابت/ثانية من شبكات EFA.

تساعدك AWS Neuron SDK على استخراج الأداء الكامل من مثيلات Trn1 حتى تتمكن من التركيز على بناء النماذج ونشرها وتسريع وقت وصولك إلى السوق. تتكامل AWS Neuron محليًا مع PyTorch Jax والمكتبات الأساسية مثل Huging Face وvLLM وPyTorch Lightning وغيرها. إنها تعمل على تحسين النماذج الجاهزة للتدريب والاستدلال الموزع، مع توفير رؤى عميقة للتوصيف وتصحيح الأخطاء. تتكامل AWS Neuron مع خدمات مثل Amazon SageMaker وAmazon SageMaker Hyerpod وAmazon Elastic Kubernetes Service (Amazon EKS) وخدمة Amazon Elastic Container Service‏ (Amazon ECS) وAWS ParallelCluster وAWS Batch، بالإضافة إلى خدمات الطرف الخارجي مثل Ray‏ (Anyscale)، وDomino Data Lab، وDatadog.

لتوفير أداء مرتفع مع تحقيق أهداف الدقة، تدعم AWS Trainium مجموعة من أنواع البيانات ذات الدقة المختلطة
مثل BF16 وFP16 وFP8 وMXFP8 وMXFP4. لدعم سرعة الابتكار في مجال الذكاء الاصطناعي المولّد،
توفر Trainium2 وTrainium3 تحسينات على مستوى العتاد تشمل تفرغًا بنسبة 4x (16:4)، والتدرج الدقيق (micro-scaling)،
والتقريب العشوائي، ومحركات عمليات جماعية مخصصة.

تتيح Neuron للمطوّرين تحسين أعباء العمل لديهم باستخدام واجهة نواة Neuron‏ (NKI) لتطوير النوى البرمجية. توفر NKI إمكانية الوصول إلى مجموعة تعليمات Trainium الكاملة (ISA)، مما يتيح تحكمًا كاملاً في البرمجة على مستوى التعليمات، وإدارة تخصيص الذاكرة، وجدولة التنفيذ. إلى جانب إنشاء النوى الخاصة بهم، يمكن للمطورين استخدام مكتبة نوى Neuron، وهي مفتوحة المصدر وجاهزة لنشر نوى مُحسّنة. وأخيرًا، تتيح Neuron Explore رؤية شاملة عبر طبقات النظام، عبر ربط التعليمات البرمجية التي كتبها المطورين مباشرةً بمحركات الأجهزة.

العملاء

يدرك عملاء مثل Anthropic وDecart وpoolside وDatabricks وRicoh وKarakuri وSplashMusic وغيرهم مزايا الأداء والتكلفة لمثيلات Trn1 وTrn2 وTrn3 وكذلك UltraServers.

يحقق المستخدمون الأوائل لـ Trn3 مستويات جديدة من الكفاءة وقابلية التوسع في الجيل التالي من نماذج الذكاء الاصطناعي المولّد واسعة النطاق.