انتقل إلى المحتوى الرئيسي

ما المقصود بتصنيف النصوص؟

ما المقصود بتصنيف النصوص؟

تصنيف النصوص هو عملية تعيين فئات محددة مسبقًا للمستندات النصية المفتوحة باستخدام أنظمة الذكاء الاصطناعي وتعلم الآلة (AI/ML). تمتلك العديد من المؤسسات أرشيفات مستندات كبيرة وعمليات سير عمل تجارية تعمل باستمرار على إنشاء مستندات على نطاق واسع، مثل المستندات القانونية والعقود ومستندات البحث والبيانات التي ينشئها المستخدم والبريد الإلكتروني. تصنيف النصوص هو الخطوة الأولى لتنظيم هذه البيانات وهيكلها وتصنيفها لمزيد من التحليلات. تسمح تصنيف النصوص بالتصنيف التلقائي للمستندات ووضع العلامات عليها. وهذا يوفر لمؤسستك آلاف الساعات التي قد تحتاجها لقراءة المستندات وفهمها وتصنيفها يدويًا.

ما مزايا تصنيف النصوص؟

تستخدم المؤسسات نماذج تصنيف النصوص للأسباب التالية.

تحسين الدقة

تقوم نماذج تصنيف النصوص بتصنيف النصوص بدقة مع تدريب إضافي بسيط أو معدوم. تساعد هذه النماذج المؤسسات في التغلب على الأخطاء التي قد يرتكبها البشر عند تصنيف البيانات النصية يدويًا. علاوة على ذلك، يمتاز نظام تصنيف النصوص بالاتساق عن البشر عند تخصيص العلامات للبيانات النصية عبر مواضيع متنوعة. 

توفير تحليلات في الوقت الفعلي

تواجه المؤسسات ضغطًا زمنيًا عند معالجة البيانات النصية في الوقت الفعلي. باستخدام خوارزميات تصنيف النصوص، يمكنك استرداد رؤى قابلة للتنفيذ من البيانات الأولية وصياغة استجابات فورية. على سبيل المثال، يمكن للمؤسسات استخدام أنظمة تصنيف النصوص لتحليل ملاحظات العملاء والاستجابة للطلبات العاجلة على الفور.

قياس مهام تصنيف النصوص

اعتمدت المؤسسات سابقًا على الأنظمة اليدوية أو القائمة على القواعد لتصنيف المستندات. هذه الطرق بطيئة وتستهلك موارد كثيرة. باستخدام تصنيف نصوص من خلال تعلم الآلة، يمكنك توسيع جهود تصنيف المستندات عبر الأقسام بشكل أكثر فعالية لدعم النمو التنظيمي.

ترجمة اللغات

يمكن للمؤسسات استخدام تصنيف النصوص لاكتشاف اللغة. يمكن لنموذج تصنيف النصوص اكتشاف اللغة الأصلية في المحادثات أو طلبات الخدمة وتوجيهها إلى الفريق المعني.

ما حالات استخدام تصنيف النصوص؟

تستخدم المؤسسات تصنيف النصوص لتحسين رضا العملاء وإنتاجية الموظفين ونتائج الأعمال. 

تحليل المشاعر

يسمح تصنيف النص للمؤسسات بإدارة علامتها التجارية بفعالية على قنوات متعددة من خلال استخراج كلمات محددة تشير إلى مشاعر العملاء. يسمح استخدام تصنيف النصوص لتحليل المشاعر أيضًا لفرق التسويق بالتنبؤ بدقة باتجاهات الشراء باستخدام البيانات النوعية.

على سبيل المثال، يمكنك استخدام أدوات تصنيف النصوص لتحليل سلوك العملاء في منشورات الوسائط الاجتماعية أو الاستطلاعات أو محادثات الدردشة أو الموارد النصية الأخرى والتخطيط لحملتك التسويقية وفقًا لذلك.

الإشراف على المحتوى

تعمل الشركات على زيادة جمهورها على المجموعات المجتمعية ووسائل التواصل الاجتماعي والمنتديات. ويُعد تنظيم مناقشات المستخدم أمرًا صعبًا عند الاعتماد على المشرفين البشريين. باستخدام نموذج تصنيف النصوص، يمكنك تلقائيًا اكتشاف الكلمات أو العبارات أو المحتوى الذي قد ينتهك إرشادات المجتمع. يتيح لك ذلك اتخاذ إجراءات فورية وضمان إجراء المحادثات في بيئة آمنة ومنظمة جيدًا. 

إدارة المستندات

تواجه العديد من المؤسسات تحديات في معالجة المستندات وفرزها لدعم العمليات التجارية. يمكن لمصنف النصوص اكتشاف المعلومات المفقودة واستخراج كلمات رئيسية محددة وتحديد العلاقات الدلالية. كما يمكنك استخدام أنظمة تصنيف النصوص لتسمية المستندات وفرزها مثل الرسائل والمراجعات والعقود في فئاتها الخاصة. 

دعم العملاء

يتوقع العملاء ردودًا دقيقة في الوقت المناسب عندما يطلبون المساعدة من فرق الدعم. يسمح مصنف النصوص الذي يعمل بتعلم الآلة لفريق دعم العملاء بتوجيه الطلبات الواردة إلى الموظفين المناسبين. على سبيل المثال، يكتشف مصنف النصوص تبادل الكلمات في تذكرة الدعم ويرسل الطلب إلى قسم الضمان.

ما طرق تصنيف النصوص؟

لقد تطور تصنيف النصوص بشكل كبير كمجموعة فرعية من معالجة اللغة الطبيعية. نحن نشارك العديد من الأساليب التي يستخدمها مهندسو تعلم الآلة لتصنيف البيانات النصية. 

استدلال اللغة الطبيعية

يحدد الاستدلال اللغوي الطبيعي العلاقة بين الفرضية والمسلمة من خلال تصنيفها بأنها استنباط أو تناقض أو حياد. يصف الاستنباط العلاقة المنطقية بين الفرضية والمسلمة، بينما يُظهر التناقض انفصالًا بين الكيانات النصية. يتم تطبيق الحياد عندما لا يُعثر على أي استنباط أو تناقض. 

على سبيل المثال، تأمل الحقيقة المسلمة التالية:

كان فريقنا هو الفائز ببطولة كرة القدم.

هذه هي الطريقة التي سيتم بها تمييز الفرضيات المختلفة بواسطة مصنف استدلال اللغة الطبيعية.

  • الاستنباط: يحب فريقنا ممارسة الرياضة.

  • التناقض: نحن أشخاص لا يمارسون الرياضة.

  • الحياد: خرجنا كبطل كرة قدم.

النمذجة الاحتمالية للغة

النمذجة الاحتمالية للغة هي نهج إحصائي تستخدمه نماذج اللغة للتنبؤ بالكلمة التالية عند إعطاء سلسلة من الكلمات. باستخدام هذا الأسلوب، يقوم النموذج بتعيين قيمة احتمالية لكل كلمة وحساب احتمالية الكلمات التالية. عند تطبيقها على تصنيف النصوص، تقوم النمذجة الاحتمالية للغة بتصنيف المستندات بناءً على عبارات محددة موجودة في النص. 

عمليات تضمين الكلمات

عمليات تضمين الكلمات هي تقنية تطبق تمثيلات عددية على الكلمات التي تلتقط علاقاتها الدلالية. تضمين الكلمة هو المكافئ العددي للكلمة. لا يمكن لخوارزميات تعلم الآلة تحليل النص بكفاءة في نماذجها الأصلية. وباستخدام عمليات تضمين الكلمات، يمكن لخوارزميات نمذجة اللغة مقارنة النصوص المختلفة من خلال عمليات التضمين الخاصة بها.

لاستخدام تضمين الكلمات، يجب تدريب نموذج معالجة اللغة الطبيعية (NLP). في أثناء التدريب، يقوم النموذج بتعيين الكلمات ذات الصلة مع تمثيلات عددية موضوعة بشكل وثيق في مساحة متعددة الأبعاد تُعرف باسم دلالات المتجهات (vector semantics). 

على سبيل المثال، عند توجيه النص باستخدام عمليات التضمين، ستجد الكلاب والقطط أقرب إلى بعضها البعض في مساحة متجهة ثنائية الأبعاد من الطماطم والأشخاص والصخور. يمكنك استخدام دلالات المتجهات لتحديد نص مشابه في بيانات غير مألوفة والتنبؤ بالعبارات اللاحقة. هذا النهج مفيد في تصنيف المشاعر وتنظيم المستندات ومهام تصنيف النص الأخرى. 

نماذج اللغة الكبيرة

نماذج اللغات الكبيرة (LLM) هي خوارزميات تعلم عميق مدربة على كميات هائلة من البيانات النصية. وهي تستند إلى بنية المحولات، وهي شبكة عصبية ذات طبقات مخفية متعددة قادرة على معالجة البيانات النصية بالتوازي. تُعد نماذج اللغات الكبيرة أقوى من النماذج الأبسط وتتفوق في العديد من مهام معالجة اللغة الطبيعية، بما في ذلك تصنيف النصوص.

على عكس سابقاتها، يمكن لنماذج اللغات الكبيرة تصنيف النصوص دون تدريب مسبق. حيث تستخدم التصنيف الصفري، وهي طريقة تسمح للنموذج بتصنيف البيانات النصية غير المرئية إلى فئات محددة مسبقًا. على سبيل المثال، يمكنك نشر نموذج تصنيف نصي صفري على Amazon Sagemaker Jumpstart لفرز منشورات قرارات العام الجديد إلى فئات مهنية وصحية ومالية وغيرها من الفئات.

كيفية تقييم أداء تصنيف النصوص؟

قبل نشر مُصنِّفات النصوص لتطبيقات الأعمال، يجب عليك تقييمها للتأكد من أنها لا تعاني من نقص الملاءمة. يُعد نقص الملاءمة ظاهرة تؤدي فيها خوارزمية تعلم الآلة أداءً جيدًا في التدريب ولكنها تفشل في تصنيف بيانات العالم الفعلي بدقة. لتقييم نموذج تصنيف النصوص، نستخدم طريقة التحقق المتقاطع. 

التحقق المتقاطع

التحقق المتقاطع هو أسلوب تقييم نموذجي يقسِّم بيانات التدريب إلى مجموعات أصغر. ثم يتم تقسيم كل مجموعة إلى عينات للتدريب والتحقق من صحة النموذج. يتدرب النموذج أولًا مع العينة المخصصة ويتم اختباره مع العينة المتبقية. ثم نقارن نتيجة النموذج مع تلك التي شرحها البشر. 

معايير التقييم

يمكننا تقييم نموذج تصنيف النصوص الخاص بالتقييم بناءً على عدة معايير.

  • الدقة، وتصف عدد التنبؤات الصحيحة التي أجراها مصنف النصوص مقارنة بالتوقعات الإجمالية. 

  • الإتقان ويعكس قدرة النموذج على التنبؤ باستمرار بفئة معينة بشكل صحيح. يكون مصنف النصوص أكثر دقة عندما ينتج عددًا أقل من الإيجابيات الخاطئة. 

  • الاستدعاء، ويقيس اتساق النموذج في التنبؤ بنجاح بالفئة المناسبة مقارنة بجميع التوقعات الإيجابية. 

  • درجة F1، وتحسب المتوسط التوافقي للدقة والاستدعاء لتوفير نظرة عامة متوازنة لدقة النموذج.

كيف تقوم بتطبيق تصنيف النصوص؟

يمكنك إنشاء نموذج تصنيف النصوص وتدريبه ونشره باتباع هذه الخطوات.

تنظيم مجموعة بيانات التدريب

يُعد إعداد مجموعة بيانات عالية الجودة أمرًا مهمًا عند التدريب أو الضبط الدقيق للنموذج اللغوي لتصنيف النصوص. تسمح مجموعة البيانات المتنوعة والمصنفة للنموذج بتعلم تحديد كلمات أو عبارات أو أنماط معينة والفئات الخاصة بها بكفاءة.

إعداد مجموعة البيانات

لا يمكن لنماذج تعلم الآلة التعلم من مجموعات البيانات الأولية. لذلك، يجب تنظيف مجموعة البيانات وإعدادها باستخدام طرق المعالجة المسبقة مثل الترميز. يقسم الترميز كل كلمة أو جملة إلى أجزاء أصغر تسمى الرموز.

بعد الترميز، يجب إزالة البيانات الزائدة والمكررة وغير الطبيعية من مجموعة بيانات التدريب لأنها قد تؤثر في أداء النموذج. بعد ذلك يتم تقسيم مجموعة البيانات إلى بيانات تدريب وبيانات تحقق.

تدريب نموذج تصنيف النصوص

اختر نموذج اللغة وقم بتدريبه باستخدام مجموعة البيانات المعدة. في أثناء التدريب، يتعلم النموذج من مجموعة البيانات المشروحة ويحاول تصنيف النص إلى فئاته الخاصة. يكتمل التدريب عندما يتقارب النموذج باستمرار مع نفس النتيجة.

التقييم والتحسين

قم بتقييم النموذج باستخدام مجموعة بيانات الاختبار. قارن دقة النموذج وإتقانه واستدعاءه ودرجة F1 مع المعايير المعمول بها. قد يتطلب النموذج المدرب مزيدًا من الضبط الدقيق لمعالجة التجهيز الزائد ومشكلات الأداء الأخرى. قم بتحسين النموذج حتى تُحقِّق نتائج مرضية. 

ما الصعوبات التي تواجه تصنيف النصوص؟

يمكن للمؤسسات استخدام موارد تصنيف النصوص التجارية أو المتاحة للجمهور لتنفيذ الشبكات العصبونية لتصنيف النصوص. ومع ذلك، يمكن للبيانات المحدودة أن تجعل تنظيم مجموعات بيانات التدريب أمرًا صعبًا في بعض المجالات. على سبيل المثال، قد تحتاج شركات الرعاية الصحية إلى المساعدة في الحصول على مجموعات البيانات الطبية لتدريب نموذج التصنيف. 

يُعد تدريب نموذج تعلم الآلة وضبطه أمرًا مكلفًا ويستغرق وقتًا طويلًا علاوة على ذلك، قد يكون النموذج مناسبًا أكثر من اللازم أو غير ملائم، مما يتسبب في أداء غير متسق في حالات الاستخدام الفعلي. 

يمكنك إنشاء مصنف نصي باستخدام مكتبات تعلم الآلة مفتوحة المصدر. ومع ذلك، فأنت بحاجة إلى معرفة متخصصة في تعلم الآلة وسنوات من الخبرة في تطوير البرمجيات لتدريب المصنف وبرمجته ودمجه مع تطبيقات المؤسسة.

كيف يمكن لـ AWS المساعدة في متطلبات تصنيف النصوص الخاصة بك؟

Amazon Comprehend عبارة عن خدمة معالجة للغات الطبيعية (NLP) تستخدم تقنية تعلم الآلة للكشف عن رؤى وارتباطات قيمة في النصوص. تتيح لك واجهة برمجة تطبيقات التصنيف المخصص إنشاء نماذج تصنيف نصية مخصصة بسهولة باستخدام التسميات الخاصة بشركتك دون تعلم أي شيء عن تعلم الآلة.

على سبيل المثال، يمكن لمؤسسة دعم العملاء الخاصة بك استخدام التصنيف المخصص لتصنيف الطلبات الواردة تلقائيًا حسب نوع المشكلة استنادًا إلى كيفية وصف العميل للمشكلة. باستخدام النموذج المخصص الخاص بك، من السهل الإشراف على تعليقات موقع الويب وفرز ملاحظات العملاء وتنظيم مستندات مجموعة العمل.

Amazon SageMaker هي خدمة مُدارة بالكامل يُمكنك استخدامها في تحضير البيانات وإنشاء نماذج تعلم الآلة لأي حالة استخدام وتدريبها ونشرها. لديها بنية تحتية وأدوات وعمليات سير عمل مُدارة بالكامل.

باستخدام Amazon SageMaker JumpStart، يمكنك الوصول إلى النماذج المُعدة مسبقًا ونماذج التأسيس (FM) وتخصيصها لحالة الاستخدام الخاصة بك مع بياناتك. يوفر SageMaker JumpStart حلولًا شاملة سهلة النشر للعديد من حالات الاستخدام الشائعة الخاصة بتعلم الآلة. يمكنك استخدامه لتصنيف النصوص وتلخيص المستندات والتعرف على الكتابة اليدوية واستخراج العلاقات والسؤال والإجابة وملء القيم المفقودة في السجلات الجدولية.

ابدأ اليوم في تصنيف النصوص على Amazon Web Services‏ (AWS) عن طريق إنشاء حساب.

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

جار التحميل
جار التحميل
جار التحميل
جار التحميل
جار التحميل

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages