يعد إعداد بياناتك للحصول على نتائج عالية الجودة الخطوة الأولى في مشروع التحليلات أو تعلّم الآلة. AWS Glue هي خدمة تكامل بيانات بلا خادم تجعل إعداد البيانات أبسط وأسرع وأرخص. يمكنك اكتشاف أكثر من 70 مصدرًا متنوعًا للبيانات والاتصال بها، كما يمكنك إدارة بياناتك في كتالوج بيانات مركزي وإنشاء بصريًا مسارات ETL وتشغيلها ومراقبتها لتحميل البيانات في مخازن بياناتك.
مقدمة إلى AWS Glue (01:54)
فوائد AWS Glue
شاملة
إمكانيات تكامل البيانات الكاملة في خدمة واحدة بلا خادم
أدوات مصممة خصوصًا
تدعم جميع مستخدمي البيانات بدايةً من المطورين إلى المستخدمين في قطاع الأعمال
تغيير السعة عند الطلب
تحجيم البيتابايت، وفوترة الدفع مقابل الاستخدام، أي حجم بيانات
دعم جميع أعباء العمل
دعم مرن للاستخراج والانتقال والتحميل (ETL) والاستخراج والتحميل والتحويل (ELT) والدفعات والتدفق والمزيد، من دون تقييد
كيفية العمل
AWS Glue هي خدمة تكامل بيانات بلا خادم تسهّل اكتشاف البيانات وإعدادها ونقلها ودمجها من مصادر متعددة للإجراء التحليلات واستخدام تعلّم الآلة (ML) وتطوير التطبيقات.
خيارات محرك تكامل البيانات
مسارات ETL المستندة إلى الأحداث
كتالوج بيانات AWS Glue
مهام ETL بدون رموز برمجية
إدارة جودة البيانات ومراقبتها
تجهيز البيانات
خيارات محرك تكامل البيانات
اختر محرك تكامل البيانات المفضل لديك في AWS Glue لدعم المستخدمين وأعباء العمل لديك.
يوضح الرسم التخطيطي كيف يمكن لمستخدمي AWS Glue الاختيار من بين خيارات الواجهة لإنشاء أعباء عمل مهمة باستخدام محركات تكامل بيانات متعددة. يتم عرض أربعة أقسام: واحد على اليسار، واثنان في المنتصف، وواحد على اليمين.
يُطلق على القسم الأول الظاهر على اليسار اسم "مصادر البيانات". ويتضمن مصادر البيانات التالية: "Amazon S3" و"Amazon DynamoDB" و"قواعد البيانات التي تعمل على Amazon EC2" و"قواعد البيانات" و "SaaS".
في القسم الأول، هناك سهم يشير إلى القسم الأوسط أعلى الرسم التخطيطي يسمى "اختيار الواجهات". تم تضمين ثلاثة عناصر في هذا القسم الثاني: "AWS Glue Studio" و"Amazon SageMaker notebooks" و"Notebooks وبيئات التطوير المتكاملة (IDE)".
أسفل هذا القسم الثاني، يرد النص التالي: "تتوافق الواجهات المفتوحة مع أعباء العمل التفاعلية وأعباء العمل الوظيفية." يتضمن هذا النص سهمًا يشير إلى القسم الثاني الموضح سابقًا أعلاه وسهم يشير إلى القسم الثالث أدناه.
يسمى هذا القسم الثالث "محركات تكامل البيانات". يذكر نصّه ما يلي: "اختر محرك معالجة بيانات بلا خادم والقابل للتطوير المفضّل لديك مع إمكانية التوسّع تلقائيًا وتسعير الدفع حسب الاستخدام." يتضمن هذا القسم ثلاثة أسماء محركات: "AWS Glue for Ray" و"AWS Glue for Python Shell" و"AWS Glue for Apache Spark."
يظهر القسم الرابع على يمين القسم الثاني بسهم يشير من القسم الثاني إلى القسم الرابع. يذكر القسم الرابع العبارة التالية: "إنشاء البيانات في مستودعات البيانات ومخازن البيانات وتحميلها." يتضمن هذا القسم أيضًا ثلاثة عناصر: "Amazon Redshift" و"مستودعات البيانات" و"مخازن البيانات".
يمكن لخدمة AWS Glue تشغيل وظائف الاستخراج والانتقال والتحميل (ETL) مع وصول البيانات الجديدة. على سبيل المثال، يمكنك تكوين AWS Glue لتشغيل مهام ETL الخاصة بك بمجرد توفر بيانات جديدة في خدمة التخزين البسيطة في Amazon (Amazon S3).
كتالوج بيانات AWS Glue
يمكنك استخدام كتالوج البيانات لاكتشاف مجموعات بيانات AWS المتعددة والبحث فيها بسرعة بدون نقل البيانات. بمجرد فهرسة البيانات، تصبح متاحة على الفور للبحث والاستعلام باستخدام Amazon Athena وAmazon EMR وAmazon Redshift Spectrum.
مهام ETL بدون رموز برمجية
يُسهل AWS Glue Studio إنشاء مهام AWS Glue ETL وتشغيلها ومراقبتها مرئيًا. يمكنك إنشاء مهام ETL لنقل البيانات وتحويلها باستخدام محرر السحب والإفلات، وينشئ AWS Glue تلقائيًا التعليمات البرمجية.
إدارة جودة البيانات ومراقبتها
تعمل AWS Glue Data Quality على أتمتة إنشاء قواعد جودة البيانات وإدارتها ومراقبتها للمساعدة في ضمان بيانات عالية الجودة بين مخازن البيانات والمسارات المتعددة.
يوضح الرسم التخطيطي كيف يمكن استخدام AWS Glue Data Quality لإنشاء توصيات القواعد ومراقبة جودة البيانات وإرسال تنبيهات عندما تتدهور جودة البيانات. تظهر ثلاثة أقسام من اليسار إلى اليمين.
يحتوي القسم الأول على رسم توضيحي لكتالوج بيانات AWS Glue وAWS Glue ETL. ترد العبارة التالية تحت كتالوج بيانات AWS Glue، "فهرسة جميع مجموعات البيانات في مخازن بياناتك." ترد العبارة التالية تحت AWS Glue ETL: "دمج البيانات وتحويلها من مصادر بيانات متباينة."
القسم الثاني بعنوان "AWS Glue Data Quality". هناك ثلاثة رموز في هذا القسم. الأول هو قائمة التحقق. وترد تحته العبارة التالية: "توصيات قواعد جودة البيانات. ابدأ بسرعة مع توصيات قواعد جودة البيانات التلقائية". الرمز الثاني هو قلم رصاص. وترد تحته العبارة التالية: "قواعد جودة البيانات المكونة مسبقًا. يمكنك تعديل التوصيات أو زيادتها باستخدام قواعد جودة البيانات المُكوّنة مسبقًا". الرمز الثالث هو الجرس. وترد تحته العبارة التالية: "التنبيهات والإجراءات. أضف تنبيهات وإجراءات لاتخاذها عندما تتدهور جودة البيانات".
يحتوي القسم الثالث على رمزين مكدسين. الرمز الأول هو مخطط شريطي. وترد تحته العبارة التالية: "المقاييس. استخدِم مقاييس جودة البيانات لاتخاذ قرارات عمل حاسمة". الرمز الثاني هو علامة تحذير. وترد تحته العبارة التالية: "التنبيهات. استخدم التنبيهات لتلقي إشعار عند تدهور الجودة، واتّخذ الإجراءات لإصلاح البيانات".
باستخدام AWS Glue DataBrew، يمكنك استكشاف البيانات وتجربتها مباشرةً من مخازن البيانات ومستودعات البيانات وقواعد البيانات، بما في ذلك Amazon S3 وAmazon Redshift وAWS Lake Formation وAmazon Aurora وAmazon Relational Database Service (RDS). يمكنك الاختيار من بين أكثر من 250 تحويلًا تم إنشاؤه مسبقًا في DataBrew لأتمتة مهام إعداد البيانات، مثل تصفية الحالات الشاذة وتوحيد التنسيقات وتصحيح القيم غير الصالحة.
حالات الاستخدام
تبسيط تطوير مسار عملية الاستخراج والتحويل والتحميل (ETL)
Remove infrastructure management with automatic provisioning and worker management, and consolidate all your data integration needs into a single service.
استكشاف البيانات وتجربتها ومعالجتها بطريقة تفاعلية
Using AWS Glue interactive sessions, data engineers can interactively explore and prepare data using the integrated development environment (IDE) or notebook of their choice.