ما هو تعزيز البيانات؟
ما هو تعزيز البيانات؟
تعزيز البيانات هو عملية إنشاء بيانات جديدة اصطناعيًا من البيانات الموجودة، وذلك بشكل أساسي لتدريب نماذج جديدة لـ تعلم الآلة (ML). تتطلب نماذج تعلم الآلة مجموعات بيانات كبيرة ومتنوعة للتدريب الأولي، ولكن الحصول على مجموعات بيانات واقعية متنوعة بشكل كافٍ قد يكون أمرًا صعبًا بسبب صوامع البيانات، واللوائح التنظيمية، والقيود الأخرى. يعمل تعزيز البيانات على تكبير مجموعة البيانات اصطناعيًا من خلال إجراء تغييرات صغيرة على البيانات الأصلية. تُستخدم الآن حلول الذكاء الاصطناعي المولَّد (AI) لإجراء تعزيز سريعة وعالية الجودة للبيانات في مختلف الصناعات.
لماذا يُعد تعزيز البيانات مهمًا؟
تعتمد نماذج التعلم العميق على كميات كبيرة من البيانات المتنوعة لتطوير تنبؤات دقيقة في سياقات مختلفة. يدعم تعزيز البيانات إنشاء تنويعات للبيانات والتي يمكن أن تساعد النموذج على تحسين دقة تنبؤاته. تُعد البيانات المزيدة حيوية في التدريب.
فيما يلي بعض فوائد تعزيز البيانات.
تحسين أداء النماذج
تساعد تقنيات تعزيز البيانات على إثراء مجموعات البيانات من خلال إنشاء العديد من التنويعات للبيانات الموجودة. يوفر هذا مجموعة بيانات أكبر للتدريب ويُمكن النموذج من مواجهة ميزات أكثر تنوعًا. تساعد البيانات المزيدة النموذج على التعميم بشكل أفضل على البيانات غير المرئية وتحسين أدائه العام في بيئات العالم الحقيقي.
تقليل الاعتماد على البيانات
قد يكون جمع وإعداد كميات كبيرة من البيانات للتدريب مكلفًا ومستهلكًا للوقت. تزيد تقنيات تعزيز البيانات من فعالية مجموعات البيانات الأصغر، مما يقلل بشكل كبير من الاعتماد على مجموعات البيانات الكبيرة في بيئات التدريب. يمكنك استخدام مجموعات بيانات أصغر لتكملة المجموعة بنقاط بيانات تركيبية
التخفيف من التجهيز الزائد في بيانات التدريب
يساعد تعزيز البيانات في منع التجهيز الزائد عند تدريب نماذج تعلم الآلة. التجهيز الزائد هو سلوك غير مرغوب فيه في تعلم الآلة حيث يمكن للنموذج تقديم تنبؤات دقيقة لبيانات التدريب ولكنه يواجه صعوبة مع البيانات الجديدة. إذا تم تدريب النموذج باستخدام مجموعة بيانات ضيقة فقط، فقد يصبح مفرط التجهيز ويمكن أن يعطي تنبؤات تتعلق فقط بنوع البيانات المحدد هذا. وفي المقابل، يوفر تعزيز البيانات مجموعة بيانات أكبر بكثير وأكثر شمولًا لتدريب النموذج. إنها تجعل مجموعات التدريب تبدو فريدة للشبكات العصبية العميقة، مما يمنعها من تعلم العمل بخصائص محددة فقط.
تحسين خصوصية البيانات
إذا كنت بحاجة إلى تدريب نموذج تعلم عميق على بيانات حساسة، يمكنك استخدام تقنيات التعزيز على البيانات الموجودة لإنشاء بيانات تركيبية. تحتفظ هذه البيانات المزيدة بالخصائص الإحصائية والأوزان الخاصة ببيانات الإدخال مع حماية البيانات الأصلية والحد من الوصول إليها.
ما حالات استخدام تعزيز البيانات؟
يقدم تعزيز البيانات العديد من التطبيقات في مختلف الصناعات، مما يؤدي إلى تحسين أداء نماذج تعلم الآلة (ML) عبر العديد من القطاعات.
الرعاية الصحية
يُعد تعزيز البيانات تقنية مفيدة في التصوير الطبي لأنها تساعد في تحسين النماذج التشخيصية التي تكتشف الأمراض وتتعرف عليها وتشخصها بناءً على الصور. يوفر إنشاء صورة مُعززة المزيد من بيانات التدريب للنماذج، خاصةً للأمراض النادرة التي تفتقر إلى تنوع في بيانات المصدر. يؤدي إنتاج واستخدام بيانات المرضى الاصطناعية إلى دفع عجلة الأبحاث الطبية مع احترام كافة اعتبارات خصوصية البيانات.
القطاع المالي
يساعد تعزيز البيانات في إنتاج حالات احتيال اصطناعية، مما يُمكن النماذج من التدرب على اكتشاف الاحتيال بدقة أكبر في سيناريوهات العالم الحقيقي. تساعد المجموعات الأكبر من بيانات التدريب في سيناريوهات تقييم المخاطر، مما يعزز من إمكانات نماذج التعلم العميق لتقييم المخاطر بدقة والتنبؤ بالاتجاهات المستقبلية.
التصنيع
تستخدم صناعة التصنيع نماذج تعلم الآلة (ML) لتحديد العيوب البصرية في المنتجات. من خلال استكمال بيانات العالم الحقيقي بالصور المعززة، يمكن للنماذج تحسين قدراتها على التعرف على الصور وتحديد مواقع العيوب المحتملة. تقلل هذه الاستراتيجية أيضًا من احتمالية شحن مشروع تالف أو معيب إلى المصانع وخطوط الإنتاج.
البيع بالتجزئة
تستخدم بيئات البيع بالتجزئة النماذج للتعرف على المنتجات وتصنيفها في فئات بناءً على العوامل البصرية. يمكن لتعزيز البيانات إنتاج اختلافات بيانات اصطناعية لصور المنتجات، مما يؤدي إلى إنشاء مجموعة تدريب تحتوي على تباين أكبر من حيث ظروف الإضاءة، وخلفيات الصور، وزوايا المنتج.
كيف يعمل تعزيز البيانات؟
تقوم عملية تعزيز البيانات بتحويل البيانات الموجودة أو تعديلها أو تغييرها لإنشاء تنويعات واختلافات. فيما يلي نظرة عامة موجزة عن العملية.
استكشاف مجموعة البيانات
تتمثل المرحلة الأولى من تعزيز البيانات في تحليل مجموعة البيانات الحالية وفهم خصائصها. توفر الميزات مثل حجم الصور المدخلة، أو توزيع البيانات، أو بنية النص، سياقًا أوسع لعملية تعزيز.
يمكنك تحديد تقنيات مختلفة لتعزيز البيانات بناءً على نوع البيانات الأساسي والنتائج المرجوة. على سبيل المثال، يتضمن تعزيز مجموعة بيانات تحتوي على العديد من الصور إضافة تشويش إليها، أو تغيير حجمها، أو اقتصاصها. وبدلًا من ذلك، فإن تعزيز مجموعة بيانات نصية لمعالجة اللغات الطبيعية (NLP) يتم من خلال استبدال المرادفات أو إعادة صياغة المقتطفات.
تعزيز البيانات الموجودة
بعد تحديد تقنية تعزيز البيانات الأنسب لهدفك المنشود، تبدأ في تطبيق تحويلات مختلفة. تتحول نقاط البيانات أو عينات الصور في مجموعة البيانات باستخدام طريقة التعزيز المحددة، مما يوفر نطاقًا من العينات المعززة الجديدة.
في أثناء عملية التعزيز، تحافظ على قواعد التسميات نفسها من أجل اتساق البيانات، ما يضمن أن البيانات الاصطناعية تتضمن نفس التسميات المقابلة للبيانات المصدر.
عادةً، تقوم بفحص الصور التركيبية لتحديد ما إذا كان التحويل قد نجح. تساعد هذه الخطوة الإضافية التي يقودها الإنسان في الحفاظ على جودة بيانات أعلى.
دمج أشكال البيانات
بعد ذلك، تقوم بدمج البيانات الجديدة المعززة مع البيانات الأصلية لإنتاج مجموعة بيانات تدريب أكبر لنموذج التعلم الآلي (ML). وعند تدريب النموذج، فإنك تستخدم مجموعة البيانات المركبة هذه من كلا النوعين من البيانات.
من المهم ملاحظة أن نقاط البيانات الجديدة التي يتم إنشاؤها بواسطة تعزيز البيانات التركيبية تحمل نفس التحيز الموجود في بيانات الإدخال الأصلية. لمنع انتقال التحيزات إلى بياناتك الجديدة، قم بمعالجة أي تحيز في البيانات المصدر قبل البدء في عملية تعزيز البيانات.
ما بعض تقنيات تعزيز البيانات؟
تختلف تقنيات تعزيز البيانات باختلاف أنواع البيانات وسياقات الأعمال المختلفة.
رؤية الكمبيوتر
يُعد تعزيز البيانات تقنية مركزية في مهام رؤية الكمبيوتر. فهي تساعد في إنشاء تمثيلات بيانات متنوعة ومعالجة عدم التوازن بين الفئات في مجموعة بيانات التدريب.
الاستخدام الأول لتعزيز البيانات في رؤية الكمبيوتر يتم من خلال تعزيز الموضع. تقوم هذه الاستراتيجية باقتطاع الصورة المدخلة أو قلبها أو تدويرها لإنشاء صور مُعززة. يؤدي الاقتطاع إما إلى تغيير حجم الصورة أو اقتطاع جزء صغير من الصورة الأصلية لإنشاء صورة جديدة. تؤدي تحويلات التدوير والقلب وتغيير الحجم جميعها إلى تغيير الصورة الأصلية بشكل عشوائي مع احتمالية معينة لتوفير صور جديدة.
استخدام آخر لتعزيز البيانات في رؤية الكمبيوتر يتمثل في تعزيز الألوان. تضبط هذه الاستراتيجية العوامل الأساسية لصورة التدريب، مثل سطوعها أو درجة التباين أو التشبع. تغير تحويلات الصور الشائعة هذه تدرج اللون، وتوازن الظلام والضوء، والفصل بين المناطق المظلمة والمضيئة في الصورة لإنشاء صور معززة.
تعزيز البيانات الصوتية
تُعد الملفات الصوتية، مثل تسجيلات الكلام، أيضاً مجالًا شائعًا حيث يمكنك استخدام تعزيز البيانات. تتضمن التحويلات الصوتية عادةً إدخال ضوضاء عشوائية أو غاوسية في بعض المقاطع الصوتية، أو التقديم السريع لأجزاء منها، أو تغيير سرعة أجزاء بمعدل ثابت، أو تغيير طبقة الصوت.
تعزيز البيانات النصية
يُعد تعزيز النصوص تقنية حيوية لزيادة البيانات في معالجة اللغات الطبيعية (NLP) وقطاعات تعلم الآلة (ML) الأخرى المتعلقة بالنصوص. وتتضمن تحويلات البيانات النصية تبديل الجمل، وتغيير مواضع الكلمات، واستبدال الكلمات بمرادفات قريبة، وإدراج كلمات عشوائية، وحذف كلمات عشوائية.
نقل النمط العصبوني
نقل النمط العصبوني هو شكل متقدم من أشكال تعزيز البيانات يقوم بتفكيك الصور إلى أجزاء أصغر. وويستخدم سلسلة من الطبقات التلافيفية التي تفصل بين نمط الصورة وسياقها، مما ينتج عنه العديد من الصور من صورة واحدة.
التدريب التنافسي
تُشكل التغييرات على مستوى البكسل تحديًا لنموذج تعلم الآلة. تتضمن بعض العينات طبقة من الضوضاء غير المحسوسة فوق الصورة لاختبار قدرة النموذج على إدراك الصورة الموجودة أسفلها. تُعد هذه الاستراتيجية شكلًا وقائيًا من أشكال تعزيز البيانات التي تركز على الوصول المحتمل غير المصرح به في العالم الحقيقي.
ما دور الذكاء الاصطناعي المولِّد في تعزيز البيانات؟
يُعد الذكاء الاصطناعي المولِّد ضروريًا في تعزيز البيانات لأنه يسهل إنتاج البيانات التركيبية. فهو يساعد في تعزيز التنوع في البيانات وتبسيط إنشاء البيانات الواقعية والحفاظ على خصوصية البيانات.
الشبكات التوليد التنافسية
شبكات التوليد التنافسية (GAN) هي إطار عمل يتكون من شبكتين عصبيتين مركزيتين تعملان بشكل متعارض. يقوم المولِّد بإنتاج عينات من البيانات التركيبية، ثم يقوم المُميِّز بالتفريق بين البيانات الحقيقية والعينات التركيبية.
وبمرور الوقت، تعمل شبكات التوليد التنافسية على تحسين مخرجات المُوَلِّد باستمرار من خلال التركيز على خداع المُميِّز. وتُعد البيانات التي يمكنها خداع المُميِّز بيانات تركيبية عالية الجودة، مما يوفر لعملية تعزيز البيانات عينات موثوقة للغاية تحاكي توزيع البيانات الأصلية بشكل وثيق.
المشفرات التلقائية المتغيرة
المشفرات التلقائية المتغيرة (VAE) هي نوع من الشبكات العصبية التي تساعد على تعزيز حجم العينة للبيانات الأساسية وتقليل الحاجة إلى جمع البيانات الذي يستهلك وقتًا طويلًا. تحتوي المشفرات التلقائية المتغيرة على شبكتين متصلتين: وحدة فك التشفير ووحدة التشفير تأخذ وحدة التشفير صور العينة وتترجمها إلى تمثيل وسيط. تأخذ وحدة فك التشفير هذا التمثيل وتعيد إنشاء صور مشابهة بناءً على فهمها للعينات الأولية. تُعد المشفرات التلقائية المتغيرة مفيدة لأنها يمكن أن تنشئ بيانات مشابهة للغاية لبيانات العينة، مما يساعد في إضافة التنوع مع الحفاظ على التوزيع الأصلي للبيانات.
كيف يمكن لـ AWS دعم تلبية متطلبات تعزيز البيانات؟
خدمات الذكاء الاصطناعي المولّد في Amazon Web Services (AWS) عبارة عن مجموعة من التقنيات التي يمكن للمؤسسات بمختلف أحجامها استخدامها لإنشاء تطبيقات الذكاء الاصطناعي المولّد وتوسيع نطاقها باستخدام بيانات مخصصة لحالات استخدام مخصصة. بإمكانك الابتكار بشكل أسرع بفضل الإمكانات الجديدة، ومجموعة مختارة من نماذج التأسيس (FM) الرائدة في الصناعة، والبنية التحتية الأكثر فعالية من حيث التكلفة. وفيما يلي مثالان لخدمات الذكاء الاصطناعي المولّد على AWS.
Amazon Bedrock عبارة عن خدمة مُدارة بالكامل توفر مجموعة مختارة من نماذج التأسيس العالية الأداء المقدمة من شركاء رائدة في مجال الذكاء الاصطناعي. يمكنك دمج إمكانات الذكاء الاصطناعي المولّد ونشرها بأمان لتعزيز البيانات بدون إدارة البنية التحتية.
Amazon Rekognition عبارة عن خدمة ذكاء اصطناعي مُدارة بالكامل توفر إمكانات رؤية الكمبيوتر المسبقة التدريب والقابلة للتخصيص لاستخراج المعلومات واستقاء الرؤى من الصور ومقاطع الفيديو. إن تطوير نموذج مخصص من أجل تحليل الصور يمثل مهمة تتطلب الوقت والخبرة والموارد. وغالبًا ما يتطلب الأمر آلافًا أو عشرات الآلاف من الصور ذات العلامات اليدوية لتزويد النموذج ببيانات كافية لاتخاذ القرارات بدقة.
باستخدام علامات التخصيص بـ Amazon Rekognition، تُجرى العديد من عمليات تعزيز البيانات من أجل تدريب النماذج، بما في ذلك الاقتصاص العشوائي للصورة، وقلقلة الألوان، والتشويش الجاوسي العشوائية. وبدلًا من الاضطرار إلى تحميل آلاف الصور، لن تحتاج إلا إلى تحميل مجموعة صغيرة من صور التدريب (عادةً بضع مئات أو أقل) الخاصة بحالة الاستخدام إلى وحدة التحكم السهلة الاستخدام.
ابدأ استخدام تعزيز البيانات على AWS عن طريق إنشاء حساب اليوم.
Browse all cloud computing concepts
Browse all cloud computing concepts content here:
Did you find what you were looking for today?
Let us know so we can improve the quality of the content on our pages