انتقل إلى المحتوى الرئيسي

ما المقصود بمنصة تكامل البيانات؟

ما المقصود بمنصة تكامل البيانات؟

تعتمد المؤسسات الحديثة على إنشاء البيانات واستخدامها ضمن عدد كبير من الأنظمة والتنسيقات التي قد تصل إلى الآلاف. يُقصد بتكامل البيانات عملية الجمع بين البيانات من مصادر وتنسيقات متعددة وتطبيعها لتعزيز فائدتها. عند دمج البيانات، يصبح بإمكانك الاستفادة من رؤية موحدة لجميع البيانات لدعم القرارات والتقارير، ومن ثم تحليلها لتعزيز دقة اتخاذ القرار.

تعتمد الشركات على البيانات الموحدة لدعم تحليلات الأعمال، وتكييف نماذج تعلّم الآلة، وتنفيذ التطبيقات المؤسسية والعمليات التجارية. يشمل تكامل البيانات عمليات جمع وتحويل وتوحيد البيانات الأولية لتتمكن المؤسسات من استغلالها بشكل فعّال. فمثلًا، تساعد بيانات العمليات، وأنواع وأعداد الحسابات، وسجلات الدعم في تكوين رؤية موحدة لبيانات العميل داخل البنك.

ما المقصود بعملية تكامل البيانات؟

أصبحت المؤسسات تدرك أن تكامل البيانات يسهم في تحسين تدفقات العمل وزيادة الإنتاجية. من خلال وضع تعريف واضح لعملية تكامل البيانات، تتمكن المؤسسات من الوصول إلى نتائج موثوقة وقابلة للتكرار. 

1. التعرف على مصادر البيانات المتعددة

يمكنك تحديد مختلف مصادر البيانات التي يجب تكاملها، سواء عبر عمليات آلية أو يدوية. تحتفظ المؤسسات ببياناتها في أنظمة متعددة وبصيغ مختلفة، مما يعكس تنوعًا واسعًا في طرق التخزين. فمثلًا، يمكن أن تعتمد المؤسسة على عدة أنواع من قواعد بيانات SQL، إلى جانب التخزين المؤقت في الذاكرة ومستودعات المستندات. من المحتمل أن تقوم بعض تطبيقات المؤسسة بتخزين البيانات بصيغ خاصة يصعب الوصول إليها من خارج النظام.

2. تحديد استراتيجية التكامل

يمكنك مراجعة خيارات تخزين البيانات والتنسيقات المستخدمة مع مراعاة احتياجات مؤسستك، لتحديد أنسب طرق الاستخراج والتحويل إلى صيغة موحدة. إليك أبرز الاستراتيجيات الشائعة لتكامل البيانات:

  • يُستخدم نمط ETL (الاستخراج والتحويل والتحميل) لجمع البيانات من الأنظمة الحالية، مع تحويلها وتحميلها إلى النظام الوجهة. يُستخدم نمط ETL على نطاق واسع في مستودع البيانات ضمن مستودعات البيانات.
  • يُنفّذ نمط ELT (الاستخراج، التحميل، التحويل) عملية استخراج البيانات من الأنظمة الحالية، ثم تحميلها في النظام الوجهة، ليتم تحويلها بعد ذلك. يُتيح نمط ELT الاحتفاظ بالبيانات دون تنظيم فوري، إلى أن يتم استخدامها في التحليلات. يُستخدم نمط ELT بشكل واسع في تخزين البيانات داخل بيئات مستودع البيانات المركزي.
  • يقوم الإدخال المتدفق في الزمن الحقيقي بجمع البيانات من مصادر البث، ما يتيح تكاملًا شبه فوري للبيانات.
  • عملية التقاط تغييرات البيانات (CDC) تعني رصد التغييرات في البيانات وبثها ضمن تدفق أحداث لاستخدامها في إدخال البيانات.

خلال هذه المرحلة، من الضروري تحديد نظام التخزين أو مستودع البيانات الذي سيتم استخدامه، مثل مستودع البيانات أو مستودع بيانات مركزي.

3. تصميم المخطط

ضع تصورًا لمخطط البيانات أو لطريقة التخزين بدون مخطط التي سيتم استخدامها في الشكل النهائي للبيانات. ينبغي أن يكون المخطط مرنًا من حيث التوسعة وقابلًا لإدارة الإصدارات، ومتوافقًا مع متطلبات التخزين في المؤسسات. ينبغي أن يضمن المخطط الجديد الحفاظ على دقة البيانات وجودتها، مع الالتزام بقواعد حوكمة البيانات لضمان تكاملها لاحقًا.

4. استخرج البيانات

يمكنك اختيار أنسب طرق استخراج البيانات بما يضمن تقليل الانقطاعات أو التأثير على العمليات التشغيلية. فمثلًا، تعتمد العديد من المؤسسات على أسلوب الاستخراج الدفعي بعد انتهاء يوم العمل لدمج البيانات غير اللحظية. قد تحتاج المؤسسات إلى استخدام واجهات برمجة التطبيقات (APIs) لاستخراج البيانات من أجل تكامل التطبيقات المملوكة، أو استخدام خدمات مثل Amazon AppFlow لنقل البيانات بين تطبيقات البرمجيات كخدمة (SaaS) والسحابة.

5. نقل البيانات إلى متجر مركزي

ترحيل البيانات إلى مستودع مركزي. قد تكون بيانات المصدر والموقع الوجهة موجودة في أماكن مختلفة، مثلًا عند ترحيل البيانات من بيئة محلية إلى السحابة. قد تحتاج عملية نقل البيانات إلى تعزيزات أمنية إضافية، أو زيادة في عرض النطاق الترددي، أو الامتثال لمتطلبات موقع إقامة البيانات.

6. تحويل البيانات

من المحتمل أن تتطلب البيانات تحويلًا إلى هيئتها النهائية عند تخزينها في المستودع المركزي. لا يقتصر تحويل البيانات على تغيير التنسيق فحسب، بل قد يشمل عمليات مثل حساب المتوسط من بيانات متعددة.

ما المقصود بتكامل البيانات بدون خادم؟

تنتقل المؤسسات من استخدام البُنى التحتية المحلية إلى اعتماد منصات سحابية حديثة لإدارة تدفقات بياناتها. تمكّن البنى التحتية السحابية المؤسسات من التغلب على القيود التي تفرضها الأجهزة المادية، وتقدّم حلول تحليل بيانات متكاملة مثل ذكاء الأعمال والذكاء الاصطناعي. 

البيئة عديمة الخوادم هي مفهوم في الحوسبة السحابية يتيح خدمات مرنة وموثوقة دون الحاجة إلى إعداد الخوادم يدويًا أو إدارتها. في الأسلوب التقليدي، يتطلب إنشاء مسار بيانات إعداد الخوادم وصيانتها، إلى جانب برمجة الخدمات اللازمة لاستيعاب البيانات وتحويلها ومعالجتها. يوفّر لك منتج تكامل البيانات عديم الخوادم إمكانية التوسّع التلقائي مع الاستغناء عن مهام الإدارة المعقدة. تُنفّذ المهام حتى الانتهاء، وتبقى الخدمة غير نشطة بعد ذلك إلى حين استدعائها مرة أخرى.

توفر البيئة عديمة الخوادم حلاً فعالًا لتكامل البيانات عند الطلب، حيث يُعتمد على نموذج الدفع مقابل الاستخدام مما يساهم في خفض التكاليف المؤسسية للبنية التحتية. 

فمثلًا، تُوفّر AWS Glue حلاً لتكامل البيانات دون الحاجة إلى خوادم. تتيح لك AWS Glue اكتشاف أكثر من 100 مصدر بيانات مختلف والاتصال بها، مع إدارة البيانات ضمن فهرس مركزي، وإنشاء وتشغيل ومراقبة مسارات البيانات بصريًا لتحميلها إلى مستودعات البيانات أو المستودعات المركزية أو مخازن البيانات. 

مع AWS Glue، يمكنك استخدام محرك تكامل البيانات المناسب لأي عبء عمل، بناءً على خصائص عبء العمل وتفضيلات المطورين والمحللين لديك. يمكن استدعاء وظائف AWS Glue وفقًا لجدول زمني أو عند الطلب أو بناءً على حدث.

تكامل بيانات ETL في بيئة عديمة الخوادم من خلال AWS Glue

لبدء العمل في AWS Glue، استخدم وحدة تحكم AWS Glue Studio. تأكد من إعداد السياسات والأدوار المطلوبة في وحدة التحكم قبل البدء باستخدام AWS Glue.

الخطوة الأولى - إضافة تعريفات الجداول إلى كتالوج بيانات AWS Glue

انتقل إلى كتالوج البيانات. لاستخدام الزاحف، اختر "إضافة جدول باستخدام الزاحف"، وحدد مخازن البيانات التي ترغب في تحليلها تلقائيًا لتكوين مخططات وبيانات وصفية تُستخدم في إنشاء الجداول في كتالوج البيانات.

الخطوة الثانية - تحديد مهمة تحويل البيانات

من القائمة الجانبية، انتقل إلى "مهام ETL" واختر "إنشاء مهمة باستخدام Visual ETL". في المحرر المرئي، أضف عُقد المصدر والوجهة وقم بإعداد البيانات بالشكل المطلوب. في علامة التبويب "Script"، ينشئ Glue Studio تعليمة برمجية تقوم بتحويل البيانات من الجدول المصدر إلى مخطط الجدول الهدف.

الخطوة الثالثة - تنفيذ مهمة AWS Glue

من خلال أدوات حوكمة البيانات، تستطيع ضبط إعدادات تشغيل المهمة ضمن علامة التبويب "تفاصيل المهمة". عند الانتهاء من إعداد المعلمات، انقر على "حفظ" ثم على "تشغيل" لبدء معالجة البيانات من حيث التحويل والتكامل.

الخطوة الرابعة - التحقق من نتائج التنفيذ

انتقل إلى علامة التبويب "Visual" واختر عقدة الوجهة لعرض معاينة البيانات والتأكد من دقتها.

للمزيد من التفاصيل، يمكنك الرجوع إلى دليل مستخدم AWS Glue.

ما هو تكامل zero-ETL؟

Zero-ETL عبارة عن مجموعة من عمليات التكامل التي تقلل من الحاجة إلى إنشاء مسارات بيانات ETL. في العادة، يتم إنشاء وتكوين وتشغيل مسار ETL لنقل البيانات من مصادر البيانات إلى وجهات التخزين. أما في أسلوب Zero-ETL لتكامل البيانات، فتُنفذ عملية ETL تلقائيًا وتكون مدمجة ضمن تطبيق برمجي. 

بمجرد تحميل البيانات من المصدر إلى الوجهة لأول مرة، يتم تكرار البيانات تلقائيًا عند كل تعديل يحدث في المصدر. يوفّر هذا الأسلوب Zero-ETL القدرة على بناء مسارات تحليل بيانات تُنفّذ في الوقت شبه الفعلي.

تمتلك AWS العديد من الخدمات التي تدعم Zero-ETL، بما في ذلك Amazon Redshift، وAmazon RDS for MySQL، وAmazon DynamoDB، وAmazon DocumentDB، وAmazon SageMaker، وAmazon CloudWatch، وAmazon OpenSearch Service، وAmazon Security Lake، وAmazon Aurora

تكامل Zero-ETL مع Amazon Redshift وAmazon Aurora

Amazon Redshift هو مستودع بيانات سحابي يساعد المؤسسات على توسيع نطاق تحليلاتها بطريقة فعّالة من حيث التكلفة. أما Amazon Aurora، فهي قاعدة بيانات علائقية تتميز بالأداء العالي، وتدعم التوافق مع MySQL وPostgreSQL. 

الخطوة 1 - تكوين مصدر التكامل 

تأكد من أن قاعدة بيانات Amazon Aurora لديك قادرة على تنفيذ تكامل Zero-ETL مع Amazon Redshift. في الوقت الحالي، توفر Amazon Redshift عمليات تكامل Zero-ETL التالية مع Amazon Aurora.

  • Amazon Aurora MySQL
  • Amazon Aurora PostgreSQL

لضمان تكرار البيانات، قم بإعداد التسجيل الثنائي في Aurora لالتقاط التغييرات التي تطرأ على البيانات. حدد إعدادات التشفير الخاصة بالبيانات في وضع السكون وأثناء النقل لضمان الامتثال لمتطلبات الأمان. في الخطوة الأخيرة، تأكد من إنشاء السياسات والأدوار في IAM لتوفير صلاحيات التكامل مع Amazon Redshift.

كما توفّر Amazon Redshift دعمًا لتكامل Zero ETL مع Amazon RDS for MySQL، وAmazon DynamoDB، بالإضافة إلى تطبيقات مثل Salesforce وSAP وServiceNow وZendesk.

الخطوة 2 - تكوين الوجهة

في حال عدم توفر مجموعة Redshift لديك، أنشئ واحدة جديدة مع إعدادات مناسبة للتخزين والمعالجة. تحقق من إعدادات الوصول الشبكي والتشفير في مجموعة Amazon Redshift لضمان التوافق مع متطلبات الأمان. قم بتحديث إعدادات مجموعات الأمان وVPC لتمكين الاتصال بين Aurora وRedshift.

الخطوة 3 - التحقق من التكامل

تبدأ Amazon Redshift بتحميل البيانات من Amazon Aurora كخطوة أولى في التكامل. بعد الانتهاء من التحميل الأولي، تتابع الخدمة مراقبة المصدر وتكرار البيانات الجديدة تلقائيًا وفي الوقت الحقيقي. بإمكانك تنفيذ استعلامات في Amazon Redshift للتأكد من أن البيانات مطابقة للمصدر.

كيف تستطيع AWS تلبية احتياجاتك المتعلقة بتكامل البيانات؟

تكامل البيانات ضروري لتمكين الشركات من الحصول على رؤية متكاملة للبيانات القادمة من مصادر متعددة، لدعم التصويرات البيانية والتحليلات المتقدمة. تمثل إدارة مسارات التكامل المعقدة تحديًا عند التعامل مع مصادر بيانات متزايدة تشمل البيانات غير المُنظمة، وشبه المُنظمة، والمُنظمة. يساهم تكامل البيانات في السحابة في تسهيل عمليات إدارة البيانات باستخدام أدوات وخدمات متقدمة لتكامل البيانات، مثل التقنيات عديمة الخوادم وZero-ETL. تعرّف على خدمات AWS المصممة لتلبية متطلبات تكامل البيانات الحديثة عبر هذا الرابط.