تطوير أنظمة معالجة اللغة : هندسة السمات و النمذجة

في المقالين السابقين ( هنا و هنا ) رأينا خطوات مختلفة للمعالجة المسبقة و أين يمكن أن تكون مفيدة.  أما في هذا المقال سنكمل رحلتنا في خط إنتاج معالجة اللغة الطبيعية نبدأها مع هندسة السمات ثم النمذجة و تليها مرحلة النشر . 

هندسة السمات (Feature Engineering)

الهدف من هندسة السمات هو التقاط خصائص النص في متجه رقمية  يمكن فهمها بواسطة خوارزميات لغة الألة . نشير إلى هذه الخطوة باسم تمثيل النص (text representation)  . هنا ، سنتطرق بإيجاز إلى نهجين مختلفين تم اتخاذهما في الممارسة العملية لهندسة السمات في

 1-  معالجة اللغة الطبيعية الكلاسيكيه  وخط إنتاج لغة الألة التقليدي 

2-  خط إنتاج التعلم العميق.

خط إنتاج  معالجة اللغة الطبيعية الكلاسيكيه  و لغة الألة التقليدي 

تعد هندسة السمات خطوة أساسية في أي خط إنتاج ML. تعمل خطوات هندسة السمات على تحويل البيانات الأولية إلى تنسيق يمكن للأله فهمه. عادة ما تكون وظائف التحويل هذه مصنوعة يدويًا في خط إنتاج ML الكلاسيكي ، بما يتماشى مع المهمة المطروحة. 

على سبيل المثال ، تخيل مهمة تصنيف المشاعر في مراجعات المنتجات في التجارة الإلكترونية. تتمثل إحدى طرق تحويل التعليقات إلى “أرقام” ذات مغزى تساعد في التنبؤ بمشاعر المراجعات (إيجابية أو سلبية) في حساب عدد الكلمات الإيجابية والسلبية في كل مراجعة. 

هناك مقاييس إحصائية لفهم ما إذا كانت الميزة مفيدة لمهمة أم لا . تتمثل الفكرة الرئيسية لبناء نماذج ML الكلاسيكية في أن الميزات مستوحاة بشكل كبير من المهمة المطروحة بالإضافة إلى معرفة المجال (على سبيل المثال ، استخدام كلمات المشاعر في مثال المراجعة). تتمثل إحدى مزايا السمات المصنوعة يدويًا في أن النموذج يظل قابلاً للتفسير – فمن الممكن تحديد مقدار تأثير كل سمه على توقع النموذج بدقة.

خط إنتاج التعلم العميق.

العيب الرئيسي لنماذج ML الكلاسيكية هو هندسة السمات. تصبح هندسة السمات المصنوعة يدويًا عنق الزجاجة لكل من أداء النموذج ودورة تطوير النموذج. يمكن أن تضر السمه الصاخبة أو غير ذات الصلة بأداء النموذج عن طريق إضافة المزيد من العشوائية إلى البيانات.

 في الآونة الأخيرة ، مع ظهور نماذج التعلم العميق، تغير هذا النهج. في خط إنتاج التعلم العميق، يتم تغذية البيانات الخام (بعد المعالجة المسبقة) مباشرة إلى النموذج. النموذج قادر على “التعلم” السمات من البيانات. وبالتالي ، فإن هذه السمات أكثر انسجامًا مع المهمة المطروحة ، لذا فهي تقدم أداءً محسنًا بشكل عام.

 ولكن نظرًا لأن كل هذه السمات يتم تعلمها من خلال معايير النموذج ، يفقد النموذج إمكانية التفسير. من الصعب جدًا شرح تنبؤ نموذج التعلم العميق، وهو يعتبر عيب في حالات معينه.  على سبيل المثال ، عند تحديد بريد إلكتروني على أنه هام أو بريد عشوائي ، قد يكون من المفيد معرفة الكلمة أو العبارات التي لعبت دورًا مهمًا في جعل البريد الإلكتروني هامًا أو بريدًا عشوائيًا. على الرغم من سهولة القيام بذلك باستخدام السمات المصنوعة يدويًا ، إلا أنه ليس بالأمر السهل في حالة نماذج التعلم العميق.

النمذجة (modeling)

لدينا الآن قدر من البيانات المتعلقة بمشروعنا في معالجة اللغة الطبيعية  وفكرة واضحة عن نوع التنظيف والمعالجة المسبقة التي يجب القيام بها وما هي الميزات التي يجب استخراجها. الخطوة التالية تتعلق بكيفية بناء حل مفيد من هذا. في البداية ، عندما تكون لدينا بيانات محدودة ، يمكننا استخدام أساليب وقواعد أبسط. بمرور الوقت ، ومع المزيد من البيانات وفهم المشكلة بشكل أفضل ، يمكننا إضافة المزيد من التعقيد وتحسين الأداء. 

ابدأ باستدلال بسيط

في بداية بناء النموذج ، قد لا يلعب تعلم الألة دورًا رئيسيًا في حد ذاته. قد يكون جزء من ذلك بسبب نقص البيانات ، ولكن الاستدلال الذي صنعه الإنسان يمكن أن يوفر أيضًا بداية رائعة من بعض النواحي.

 قد يكون الاستدلال بالفعل جزءًا من نظامك ، سواء بشكل ضمني أو صريح. على سبيل المثال ، في مهام تصنيف البريد الإلكتروني العشوائي ، قد يكون لدينا قائمة سوداء بالمجالات التي تُستخدم حصريًا لإرسال البريد العشوائي. يمكن استخدام هذه المعلومات لتصفية رسائل البريد الإلكتروني من تلك المجالات. وبالمثل ، يمكن أيضًا استخدام قائمة سوداء بالكلمات في رسالة بريد إلكتروني تشير إلى وجود فرصة كبيرة للبريد العشوائي لهذا التصنيف.

هناك طريقة شائعة أخرى لدمج الاستدلال في نظامك وهي استخدام التعبيرات العادية. لنفترض أننا نطور نظامًا لاستخراج أشكال مختلفة من المعلومات من المستندات النصية ، مثل التواريخ وأرقام الهواتف وأسماء الأشخاص الذين يعملون في مؤسسة معينة وما إلى ذلك.

 في حين أن بعض المعلومات ، مثل معرفات البريد الإلكتروني والتواريخ والهاتف يمكن استخراج الأرقام باستخدام التعبيرات العادية (وإن كانت معقدة) ، وتعتبر TokensRegex من Stanford NLP والمطابقة المستندة إلى قواعد من spaCy أداتين مفيدتين في تحديد التعبيرات العادية المتقدمة لالتقاط معلومات أخرى ، مثل الأشخاص الذين يعملون في منظمة محددة.

يُظهر هذا النمط الذي يبحث عن نص يحتوي على “تطابق” في lemma ، ويظهر كاسم ، مسبوقًا بشكل اختياري صفة ، متبوعًا بأي شكل من أشكال الكلمة lemma “be”. هذه الأنماط هي شكل متقدم من التعبيرات العادية ، والتي تتطلب بعض خطوات المعالجة المسبقة للغة معالجة اللغة الطبيعية  التي رأيناها في المقال الثالث.

 في حالة عدم وجود كميات كبيرة من بيانات التدريب ، وعندما يكون لدينا بعض المعرفة بالمجال ، يمكننا البدء في بناء أنظمة من خلال ترميز هذه المعرفة في شكل قواعد / الاستدلال. حتى عندما نبني نماذج قائمة على تعام الألة، يمكننا استخدام هذه الأساليب التجريبية للتعامل مع الحالات الخاصة – على سبيل المثال ، الحالات التي فشل فيها النموذج في التعلم جيدًا.

 وبالتالي ، يمكن أن يمنحنا الاستدلال البسيط نقطة انطلاق جيدة ويكون مفيدًا في نماذج ML. الآن ، بافتراض أننا بنينا مثل هذا النظام القائم على الاستدلال ، إلى أين نذهب من هناك؟

بناء النموذج الخاص بك

في حين أن مجموعة من الأساليب التجريبية البسيطة هي بداية جيدة ، مع نضوج نظامنا ، قد تؤدي إضافة أحدث الأساليب الاستدلالية إلى نظام معقد قائم على القواعد. 

من الصعب إدارة مثل هذا النظام ، وقد يكون من الصعب تشخيص سبب الأخطاء. نحن بحاجة إلى نظام يسهل صيانته أثناء نضجه. علاوة على ذلك ، بينما نجمع المزيد من البيانات ، يبدأ نموذج ML الخاص بنا في التغلب على الاستدلال البحت. في هذه المرحلة ، من الممارسات الشائعة هي الجمع بين الاستدلال بشكل مباشر أو غير مباشر مع نموذج ML.

 هناك طريقتان واسعتان للقيام بذلك:

  • قم بإنشاء سمه من الإستدلالات  لنموذج تعلم الألة الخاص بك

عندما يكون هناك العديد من الاستدلالات حيث يكون سلوك الاستدلال الفردي حتميًا ولكن سلوكهم المشترك غير واضح   من حيث كيفية توقعهم ، فمن الأفضل استخدام هذه الأساليب التجريبية كسمات لتدريب نموذج تعمل الألة الخاص بك. على سبيل المثال ، في مثال تصنيف البريد الإلكتروني العشوائي ، يمكننا إضافة سمات ، مثل عدد الكلمات من القائمة السوداء في بريد إلكتروني معين أو معدل ارتداد البريد الإلكتروني ، إلى نموذج تعلم الألة.

  • المعالجة المسبقة لمدخلاتك في نموذج تعلم الألة

إذا كان الاستدلال يحتوي على تنبؤ عالي حقًا لنوع معين من التصاينف، فمن الأفضل استخدامه قبل تغذية البيانات في نموذج تعمل الألة الخاص بك. على سبيل المثال ، إذا كانت هناك كلمات معينة في رسالة بريد إلكتروني ، هناك احتمال بنسبة 99٪ أن تكون رسالة غير مرغوب فيها ، فمن الأفضل تصنيف هذا البريد الإلكتروني على أنه بريد عشوائي بدلاً من إرساله إلى نموذج تعلم الألة .

بالإضافة إلى ذلك ، لدينا موفرو خدمات معالجة اللغة الطبيعية ، مثل Google Cloud Natural Language و Amazon Comprehend و Microsoft Azure Cognitive Services و IBM Watson Natural Language Understanding ، والتي توفر واجهات برمجة تطبيقات جاهزة لحل مهام معالجة اللغة الطبيعية  المختلفة. 

إذا كان مشروعك يحتوي على مشكلة معالجة لغة طبيعية تم معالجتها بواسطة واجهات برمجة التطبيقات هذه ، فيمكنك البدء باستخدامها للحصول على تقدير لجدوى المهمة ومدى جودة مجموعة البيانات الحالية. بمجرد أن تشعر بالارتياح لأن المهمة قابلة للتنفيذ و أن النماذج الجاهزة تعطي نتائج معقولة ، يمكنك التحرك نحو بناء نماذج تعلم الألة مخصصة وتحسينها.

بناء النموذج

لبناء النموذج  نبدأ بنهج أساسي ونعمل على تحسينه. قد نضطر إلى إجراء العديد من التكرارات لعملية بناء النموذج الذي يوفر أداءً جيدًا وجاهزًا أيضًا للإنتاج. هنا  بعض الأساليب لمعالجة هذه المشكلة هنا:

التجميع والتكديس

لا تتمثل الممارسة الشائعة في امتلاك نموذج واحد ، ولكن استخدام مجموعة من نماذج تعلم ألة، غالبًا ما تتعامل مع جوانب مختلفة من مشكلة التنبؤ. هناك طريقتان للقيام بذلك: يمكننا تغذية مخرجات أحد النماذج كمدخلات لنموذج آخر ، وبالتالي الانتقال بالتتابع من نموذج إلى آخر والحصول على الناتج النهائي. 

وهذا ما يسمى تكديس النموذج. وبدلاً من ذلك ، يمكننا أيضًا تجميع التنبؤات من نماذج متعددة وإجراء التنبؤ النهائي. وهذا ما يسمى تجميع النموذج.

تجميع النموذج و التكديس (محمد العوض)

في هذا الشكل ، تُستخدم بيانات التدريب لبناء النماذج 1 و 2 و 3. ثم يتم دمج مخرجات هذه النماذج لاستخدامها في نموذج ميتا (نموذج يستخدم نماذج أخرى) للتنبؤ بالنتيجة النهائية.

 على سبيل المثال ، في حالة تصنيف البريد الإلكتروني العشوائي ، يمكننا أن نفترض أننا نشغل ثلاثة نماذج مختلفة: النتيجة المبنية على الإستدلال (heuristic-based score)  ، و نايف بايز (Naive Bayes)  ، و الذاكرة بعيدة قصيرة المدى (LSTM)

يتم بعد ذلك إدخال ناتج هذه النماذج الثلاثة في النموذج الميتا بناءً على الانحدار اللوجستي (logistic regression)  ، والذي يعطي بعد ذلك فرص أن يكون البريد الإلكتروني بريدًا عشوائيًا أم لا. مع نمو المنتج من حيث ميزاته ، سيزداد النموذج أيضًا من حيث التعقيد. لذلك ، قد ننتهي في النهاية باستخدام مزيج من كل هذه الأشياء – أي الاستدلال والتعلم الآلي والنماذج المكدسة والمجمعة – كجزء من منتج كبير.

هندسة سمات أفضل 

بالنسبة إلى كل من النماذج القائمة على واجهة برمجة التطبيقات (api) والنماذج المخصصة، تعد هندسة السمات خطوة مهمة ، وهي تتطور طوال العملية. قد تؤدي خطوة هندسة السمات الأفضل إلى أداء أفضل.

 على سبيل المثال ، إذا كان هناك الكثير من السمات، فإننا نستخدم اختيار السمة للعثور على نموذج أفضل. 

نقل التعلم

بصرف النظر عن تكديس النموذج أو تجميعه ، هناك اتجاه جديد أصبح شائعًا في مجتمع معالجة اللغة الطبيعية  – نقل التعلم ، والذي قدمناه في المقالة الأولى . 

في كثير من الأحيان ، يحتاج النموذج إلى معرفة خارجية تتجاوز مجموعة البيانات لمهمة فهم اللغة والمشكلة بشكل جيد. يحاول التعلم الانتقالي نقل المعرفة الموجودة مسبقًا من نموذج كبير جيد التدريب إلى نموذج أحدث في مرحلته الأولية.

 بعد ذلك ، يتكيف النموذج الجديد ببطء مع المهمة المطروحة. هذا مشابه لنقل المعلم الحكمة والمعرفة إلى الطالب. يوفر نقل التعلم تهيئة أفضل ، مما يساعد في المهام النهائية ، خاصة عندما تكون مجموعة البيانات الخاصة بمهمة المطلوبة صغيرة. في هذه الحالات ، ينتج عن نقل التعلم نتائج أفضل من مجرد تهيئة نموذج من البداية مع التهيئة العشوائية. كمثال ، لتصنيف البريد الإلكتروني العشوائي ، يمكننا استخدام BERT لضبط مجموعة بيانات البريد الإلكتروني. 

إعادة تطبيق الاستدلال

لا يوجد نموذج تعلم ألة مثالي، مما يعني أن هذه النماذج سترتكب أخطاء. من الممكن النظر مجدداً  في هذه الحالات في نهاية خط النمذجة للعثور على أي نمط شائع في الأخطاء واستخدام الأساليب التجريبية لتصحيحها.

 يمكننا أيضًا تطبيق المعرفة الخاصة بالمجال التي لا يتم التقاطها تلقائيًا في البيانات لتحسين تنبؤات النموذج.

بين مرحلة عدم وجود بيانات ، عندما نعتمد بشكل كامل على الاستدلال ، إلى الكثير من البيانات ، حيث يمكننا تجربة مجموعة من تقنيات النمذجة ، نواجه موقفًا يكون لدينا فيه كمية صغيرة من البيانات ، والتي غالبًا ما تكون غير كافية لبناء نماذج تعلم ألة جيدة. 

في مثل هذه السيناريوهات ، يتمثل أحد الأساليب التي يجب اتباعها في التعلم النشط ، حيث يمكننا استخدام ملاحظات المستخدم أو مصادر أخرى من هذا القبيل لجمع البيانات الجديدة باستمرار لبناء نماذج أفضل. 

مثال مسار القرارنوعية البيانات
إذا كان لدينا الكثير من المراجعات والبيانات الوصفية المرتبطة بها ، فيمكننا إنشاء أداة لتحليل المشاعر من البداية.يمكن استخدام التقنيات التي تتطلب المزيد من البيانات ، مثل التعلم العميق يمكن استخدام مجموعة أكثر ثراءً من الميزات أيضًا.

إذا كانت البيانات كبيرة بدرجة كافية ولكنها غير مصنفة ، فيمكننا أيضًا تطبيق تقنيات غير خاضعة للإشراف.
بيانات كبيرة
يحدث هذا غالبًا في بداية مشروع جديد تمامًا.تحتاج إلى البدء بحلول تعلم الأله المستندة إلى القواعد أو التقليدية التي تكون أقل حاجة للبيانات. يمكن أيضًا تكييف واجهات برمجة التطبيقات السحابية وإنشاء المزيد من البيانات بإشراف ضعيف. يمكننا أيضًا استخدام التعلم بالنقل إذا كانت هناك مهمة مماثلة بها بيانات كبيرة.
بيانات صغيرة
يستلزم ذلك مشكلات مثل خلط الكود (اختلاط لغات مختلفة في نفس الجملة) أو لغة غير تقليدية أو كتابة بحروف لغة أخرى أو ضوضاء (مثل نص وسائل التواصل الاجتماعي).قد تكون هناك حاجة إلى المزيد من تنظيف البيانات والمعالجة المسبقة.جودة البيانات رديئة والبيانات غير متجانسة في طبيعتها
النص القانوني أو الصحف.يمكن تطبيق الخوارزميات الجاهزة مباشرة أو واجهات برمجة التطبيقات السحابية بسهولة أكبر.جودة البيانات جيدة
تصنيف المستندات ، تحليل المراجعة ، إلخ.اختر الإستراتيجية الصحيحة لتقسيم المستند إلى مستويات أدنى ، مثل الفقرات أو الجمل أو العبارات ، حسب المشكلة.تتكون البيانات من مستندات كاملة

حتى الآن ، لقد رأينا نظرة عامة على أشكال مختلفة من النمذجة التي يمكن أن تكون مفيدة في خط إنتاج معالجة اللغات الطبيعية ومسار النمذجة الذي يجب اختياره بناءً على البيانات المتوفرة لدينا.

 يعد التعلم الخاضع للإشراف ، وخاصة التصنيف ، أكثر عمليات النمذجة شيوعًا التي ستواجهها في مشاريع معالجة اللغة الطبيعية  التي ستنشئها في سيناريو صناعي. 

التقييم 

تتمثل إحدى الخطوات الرئيسية في خط إنتاج معالجة اللغات الطبيعية في قياس مدى جودة النموذج الذي أنشأناه. يمكن أن يكون لـ “جودة” النموذج معانٍ متعددة ، ولكن التفسير الأكثر شيوعًا هو قياس أداء النموذج على البيانات غير المرئية. 

يعتمد النجاح في هذه المرحلة على عاملين:

 (1) استخدام المقياس الصحيح للتقييم 

 (2) اتباع عملية التقييم الصحيحة. 

دعونا نركز أولاً على 1. اعتمادًا على مهمة أو مشكلة معالجة اللغة الطبيعية  ، يمكن أن تختلف مقاييس التقييم. يمكن أن تختلف أيضًا حسب المرحلة: مراحل بناء النموذج والنشر والإنتاج.

في المرحلتين الأوليين ، نستخدم عادةً مقاييس تعلم الآلة ، في المرحلة النهائية ، نقوم أيضًا بتضمين مقاييس الأعمال لقياس تأثير الأعمال.

أيضًا ، التقييمات من نوعين: جوهري وخارجي (intrinsic and extrinsic).

 يركز الجوهري على الأهداف الوسيطة ، بينما يركز الخارجي على تقييم الأداء على الهدف النهائي. 

على سبيل المثال ، ضع في اعتبارك نظام تصنيف البريد العشوائي. سيكون مقياس  نظام تعلم الألة هو الضبط والاستدعاء (precision and recall)  ، بينما سيكون مقياس الأعمال هو “مقدار الوقت الذي يقضيه المستخدمون في البريد الإلكتروني العشوائي”.

 سيركز التقييم الجوهري على قياس أداء النظام باستخدام االضبط والاستدعاء. سيركز التقييم الخارجي على قياس الوقت الذي يضيعه المستخدم بسبب إرسال بريد إلكتروني عشوائي إلى صندوق الوارد الخاص به أو إرسال بريد إلكتروني حقيقي إلى مجلد البريد العشوائي.

التقييم الجوهري

سنلقي نظرة على بعض مقاييس التقييم الجوهرية المستخدمة بشكل شائع لقياس أنظمة معالجة اللغة الطبيعية . بالنسبة لمعظم المقاييس في هذه الفئة ، نفترض مجموعة اختبار حيث لدينا الحقيقة الأساسية (ground truth)  أو التسميات . يمكن أن تكون التسميات ثنائية (على سبيل المثال ، 0/1 لتصنيف النص) ، أو كلمة واحدة إلى كلمتين (على سبيل المثال ، أسماء للتعرف على الكيانات المسماة) ، أو نصًا كبيرًا بحد ذاته (على سبيل المثال ، نص مترجم عن طريق الترجمة الآلية) تتم مقارنة ناتج نموذج معالجة اللغة الطبيعية  على نقطة بيانات بالتسمية المقابلة لنقطة البيانات هذه ، ويتم حساب المقاييس بناءً على التطابق (أو عدم التطابق) بين الإخراج والتسمية. بالنسبة لمعظم مهام معالجة اللغة الطبيعية  ، يمكن أتمتة المقارنة ، وبالتالي يمكن أتمتة التقييم الداخلي. في بعض الحالات ، مثل الترجمة الآلية أو التلخيص ، ليس من الممكن دائمًا أتمتة التقييم نظرًا لأن المقارنة ليست ذاتية.

يسرد الجدول المقاييس المختلفة المستخدمة للتقييم الداخلي عبر مهام معالجة اللغة الطبيعية  المختلفة.

التطبيقالوصفالمقياس
تستخدم بشكل رئيسي في مهام التصنيف ، مثل تصنيف المشاعر (متعدد الطبقات) ، واستدلال اللغة الطبيعية (ثنائي) ، واكتشاف إعادة الصياغة (ثنائي) ، إلخ.تستخدم عندما يكون متغير الإخراج صريح أو غير مترابط. وهو يشير إلى النسبة التي يقوم فيها النموذج بتنبؤات صحيحة مقارنة بالتنبؤات الإجمالية التي يقوم بها.الدقة
تستخدم في مهام التصنيف المختلفة ، لا سيما في الحالات التي تكون فيها الأخطاء في فئة إيجابية أكثر تكلفة من الأخطاء في فئة سلبية ، على سبيل المثال ، تنبؤات المرض في الرعاية الصحية.يوضح مدىدقة تنبؤات النموذج ، أي بالنظر إلى جميع الحالات الإيجابية (الفئة التي نهتم بها) ، كم عدد الحالات التي يمكن للنموذج تصنيفها بشكل صحيح؟الضبط
تستخدم في مهام التصنيف ، خاصةً عندما يكون استرداد النتائج الإيجابية أكثر أهمية ، على سبيل المثال ، البحث في التجارة الإلكترونية ومهام استرجاع المعلومات الأخرى.الاستدعاء مكمل للضبط فهو يوضح مدى قدرة النموذج على إستدعاء التصنيف الإيجابية ، أي بالنظر إلى جميع التوقعات الإيجابية التي يقدمها ، كم منها صحيح ؟الإستدعاء
تستخدم سوياً مع الدقة في معظم مهام التصنيف. يتم استخدامه أيضًا في مهام وضع العلامات على التسلسل ، مثل استخراج الكيانات ، والإجابة على الأسئلة القائمة على الاسترجاع ، وما إلى ذلك.يجمع بين الضبط والاستدعاء لإعطاء مقياس واحد ، والذي يلتقط أيضًا المفاضلة بين الدقة والتذكر .نتيجة F1
يُستخدم لقياس جودة نموذج بشكل مستقل عن عتبة التنبؤ. و يتم استخدامه للعثور على عتبة التنبؤ الأفضل لمهمة التصنيف.يلتقط عدد التنبؤات الإيجابية الصحيحة مقابل عدد التنبؤات الإيجابية الخاطئة لأننا نغير عتبة التنبؤ.AUC
تُستخدم بكثرة في جميع مهام استرجاع المعلومات ، بما في ذلك البحث عن المقالات والبحث في التجارة الإلكترونية وما إلى ذلك.تستخدم لتقييم الردود المسترجعة بالنظر إلى احتمالية صحتها. وهو يعني تبادلية رتب النتائج المسترجعة.MRR (متوسط الرتبة متبادلة)
مستخدمة في مهام استرجاع المعلومات تستخدم في نتائج الاسترجاع المرتبة ، مثل MRR. يحسب متوسط الضبط عبر كل نتيجة مسترجعة.MAP (متوسط قيمة الضبط المتوسطة)
يستخدم بالاقتران مع MAPE في حالة مشاكل الانحدار ، من التنبؤ بدرجة الحرارة إلى التنبؤ بسعر سوق الأوراق المالية. يلتقط أداء النموذج في مهمة التنبؤ بالقيمة الحقيقية. تحسب الجذر التربيعي لمتوسط الأخطاء التربيعية لكل نقطة بياناتRMSE (خطأ متوسط الجذر التربيعي)
يستخدم لاختبار أداء نموذج الانحدار. غالبًا ما يتم استخدامه مع RMSE.يستخدم عندما يكون متغير المخرجات متغيرًا مستمرًا. هو متوسط نسبة الخطأ المطلق لكل نقطة بيانات.MAPE (متوسط نسبة الخطأ المطلق)
تستخدم بشكل رئيسي في مهام الترجمة الآلية. تم تكييفها مؤخرًا مع مهام إنشاء النص الأخرى ، مثل إعادة الصياغة وتلخيص النص. يلتقط مقدار n-gram المتداخل بين الجملة الناتجة و الجملة الأساسية المرجعية.BLEU ( التقييم ثنائي اللغة)
تستخدم بشكل رئيسي في الترجمة الآلية.مقياس يعتمد على الدقة لقياس جودة النص الناتج. يقوم بإصلاح بعض عيوب BLEU ، مثل مطابقة الكلمات تمامًا أثناء حساب الدقة. يسمح METEOR بمطابقة المرادفات والكلمات المشتقة مع الكلمة المرجعية.METEOR
نظرًا لأنه يقيس الاسترجاع ، فإنه يُستخدم بشكل أساسي لمهام التلخيص حيث يكون من المهم تقييم عدد الكلمات التي يمكن أن يتذكرها النموذج.مقياس آخر لمقارنة جودة النص الناتج فيما يتعلق بالنص المرجعي. على عكس BLEU ، فإنه يقيس الإسترداد ROUGE
تستخدم لتقييم نماذج اللغة. يمكن استخدامه أيضًا في مهام إنشاء اللغة ، مثل إنشاء الحوار.مقياس احتمالي يوضح مدى ارتباك نموذج معالجة اللغة العصبية. إنه مشتق من الانتروبيا المتقاطعة في مهمة توقع الكلمة التالية.PerPlexity

بصرف النظر عن قائمة المقاييس الموضحة في الجدول، هناك عدد قليل من المقاييس والتصورات التي تُستخدم غالبًا لحل مشكلات معالجة اللغة الطبيعية . 

في حالة مهام التصنيف ، فإن طريقة التقييم المرئي شائعة الاستخدام هي مصفوفة الارتباك (confusion matrix) . تسمح لنا بفحص المخرجات الفعلية والمتوقعة لفئات مختلفة في مجموعة البيانات. 

ينبع الاسم من حقيقة أنه يساعد على فهم مدى “الارتباك” في نموذج التصنيف من حيث تحديد الفئات المختلفة. يتم استخدام مصفوفة الارتباك بدورها لحساب المقاييس مثل الدقة والتذكر ودرجة F1.

تستخدم مهام الترتيب مثل البحث عن المعلومات واسترجاعها في الغالب مقاييس قائمة على الترتيب ، مثل MRR و MAP ، ولكن يمكن أيضًا استخدام مقاييس التصنيف المعتادة

. في حالة الإسترداد، نهتم بشكل أساسي بالإسترداد، لذلك يتم حساب الإسترداد في الرتب المختلفة. على سبيل المثال ، لاسترجاع المعلومات ، المقياس الشائع هو “الإسترداد في الرتبة K” ؛ إنه يبحث عن وجود الحقيقة الأساسية في نتائج أعلى K المسترجعة. إذا كان موجودًا ، فهو ناجح.

التقييم الخارجي

كما قلنا سابقًا ، يركز التقييم الخارجي على تقييم أداء النموذج على الهدف النهائي. في الصناعة، يتم إنشاء أي نموذج للذكاء الاصطناعي بهدف حل مشكلة العمل. 

على سبيل المثال ، تم تصميم نموذج الانحدار بهدف ترتيب رسائل البريد الإلكتروني للمستخدمين وإحضار أهم رسائل البريد الإلكتروني إلى أعلى البريد الوارد ، وبالتالي مساعدة مستخدمي خدمة البريد الإلكتروني على توفير الوقت. ضع في اعتبارك سيناريو يعمل فيه نموذج الانحدار جيدًا على مقاييس تعلم الألة 

ولكنه لا يوفر الكثير من الوقت لمستخدمي خدمة البريد الإلكتروني ، أو حيث يعمل نموذج الإجابة عن الأسئلة بشكل جيد جدًا على المقاييس الجوهرية ولكنه يفشل في معالجة عدد كبير من أسئلة في بيئة الإنتاج. هل نسمي مثل هذه النماذج ناجحة؟ لا ، لأنهم فشلوا في تحقيق أهداف أعمالهم. في حين أن هذه ليست مشكلة للباحثين في الأوساط الأكاديمية ، إلا أنها مهمة جدًا للممارسين في الصناعة.

قد نسأل: إذا كان التقييم الخارجي هو المهم ، فلماذا التقييم الجوهري على الإطلاق؟ السبب الذي يجعلنا نقوم بالتقييم الجوهري قبل التقييم الخارجي هو أن التقييم الخارجي غالبًا ما يشمل أصحاب المصلحة في المشروع من خارج فريق الذكاء الاصطناعي – وأحيانًا المستخدمين النهائيين. يمكن إجراء التقييم الجوهري في الغالب بواسطة فريق الذكاء الاصطناعي نفسه. 

هذا يجعل التقييم الخارجي عملية أكثر تكلفة مقارنةً بالتقييم الجوهري. لذلك ، يتم استخدام التقييم الجوهري كبديل للتقييم الخارجي. فقط عندما نحصل على نتائج جيدة باستمرار في التقييم الجوهري ، يجب أن نذهب للتقييم الخارجي.

شيء آخر يجب تذكره هو أن النتائج السيئة غالبًا ما تؤدي إلى التقييم الذاتي 

مثال مسار القرارنوعية المشروع
أنظمة كشف إساءة الاستخدام حيث يبلغ المستخدمون عن البياناتبمجرد النشر ، يمكن استخدام الإشارات المستخرجة لتحسين النموذج تلقائيًا. يمكن أيضًا تجربة التعلم عبر الإنترنت لتدريب النموذج تلقائيًا على أساس يومييتم إنشاء المزيد من بيانات التدريب بعد النشر
مجموعة فرعية من خط إنتاج معالجة اللغات الطبيعية الأكبر بدون أي تغذية رجعية. يمكن عمل العلامات اليدوية لتحسين التقييم والنماذج ، يجب بناء كل نموذج جديد وتقييمه يدويًا.لا يتم إنشاء بيانات التدريب بعد النشر
النص القانوني أو الصحف.الحاجة إلى استخدام النماذج التي يمكن استنتاجها بسرعة. خيار آخر هو إنشاء استراتيجيات حفظ مثل التخزين المؤقت أو امتلاك قوة حوسبة أكبر بكثيرنموذج بزمن إستجابة منخفض ، أو يجب أن يكون النموذج متصلاً بالإنترنت مع استجابة شبه فورية.
لأنظمة التي يمكن تشغيلها على دفعات ، مثل تحليل كتالوج منتجات البيع بالتجزئة.يمكن استخدام نماذج أكثر تقدمًا وأبطأ. يمكن أن يساعد هذا أيضًا في تحسين التكاليف حيثما كان ذلك ممكنًا.لا يلزم وقت استجابة منخفض للنموذج ، أو يمكن تشغيل النموذج بطريقة بدون إنترنت

مراحل ما بعد النمذجة

بمجرد تجربة نموذجنا واختباره ، ننتقل إلى مرحلة ما بعد النمذجة: نشر النموذج ومراقبته وتحديثه. سنغطي هذه باختصار في هذا القسم.

النشر

في معظم سيناريوهات التطبيق العملي ، تعد وحدة معالجة اللغة الطبيعية التي ننفذها جزءًا من نظام أكبر (على سبيل المثال ، نظام تصنيف الرسائل غير المرغوب فيها في تطبيق بريد إلكتروني أكبر).

 وبالتالي ، فإن العمل من خلال خط إنتاج المعالجة والنمذجة والتقييم ليس سوى جزء من القصة. في النهاية ، بمجرد أن نكون سعداء بحل نهائي واحد ، يجب نشره في بيئة إنتاج كجزء من نظام أكبر

يستلزم النشر توصيل وحدة معالجة اللغة الطبيعية بالنظام الأوسع. قد يتضمن أيضًا التأكد من أن خطوط إنتاج بيانات الإدخال والإخراج مرتبة ، بالإضافة إلى التأكد من أن وحدة معالجة اللغة الطبيعية الخاصة بنا قابلة للتطوير تحت الحمل الثقيل.

عادة ما يتم نشر وحدة معالجة اللغة الطبيعية كخدمة ويب. لنفترض أننا صممنا خدمة ويب تأخذ النص كمدخل وتعيد فئة البريد الإلكتروني (البريد العشوائي أو غير العشوائي) كإخراج.

 الآن ، في كل مرة يتلقى شخص ما بريدًا إلكترونيًا جديدًا ، ينتقل إلى الخدمة المصغرة ، التي تصنف نص البريد الإلكتروني. يمكن استخدام هذا بدوره لاتخاذ قرار بشأن ما يجب فعله بالبريد الإلكتروني (إما إظهاره أو إرساله إلى مجلد البريد العشوائي). 

في ظروف معينة ، مثل معالجة الدُفعات ، يتم نشر وحدة معالجة اللغة الطبيعية في قائمة انتظار المهام الأكبر. كمثال ، ألق نظرة على قوائم انتظار المهام في Google Cloud أو AWS

المراقبة

كما هو الحال مع أي مشروع هندسة برمجيات ، يجب إجراء اختبار شامل للبرامج قبل النشر النهائي ، ومراقبة أداء النموذج باستمرار بعد النشر.

 يجب التعامل مع مراقبة مشاريع ونماذج معالجة اللغة الطبيعية بشكل مختلف عن مشروع برمجي عادي ، حيث نحتاج إلى التأكد من أن المخرجات التي تنتجها نماذجنا منطقية يوميًا.

 إذا كنا نقوم تلقائيًا بتدريب النموذج بشكل متكرر ، فعلينا التأكد من أن النماذج تتصرف بطريقة معقولة. يتم جزء من ذلك من خلال لوحة قياس الأداء التي تعرض معلمات النموذج ومؤشرات الأداء الرئيسية. 

تحديث النموذج

بمجرد نشر النموذج وبدء جمع البيانات الجديدة ، سنكرر النموذج بناءً على هذه البيانات الجديدة للبقاء محدثًا مع التوقعات..

الإجراءمثالنوعية اللغة
ن الممكن استخدام نماذج التعلم العميق المدربة مسبقًا. أسهل في الاستخدام.اللغات التي تحتوي على بيانات وافرة بالإضافة إلى النماذج المعدة مسبقًا. تشمل الأمثلة الإنجليزية والفرنسية والإسبانية.اللغات عالية الموارد
اعتمادًا على المهمة ، قد تحتاج إلى تسمية المزيد من البيانات بالإضافة إلى استكشاف المكونات الفردية.للغات ذات البيانات المحدودة والاعتماد الرقمي الحديث. قد لا تحتوي على نماذج مسبقة الصنع. ومن الأمثلة على ذلك اللغة السواحيلية والبورمية والأوزبكية. اللغات منخفضة الموارد
إذا لم تكن اللغة غنية بالموارد ، فسنحتاج إلى استكشاف أدوات التحليل الصرفية الموجودة للغة. في أسوأ الحالات ، قد تكون هناك حاجة إلى قواعد يدوية للتعامل مع حالات معينة.المعلومات اللغوية والنحوية مثل الموضوع و والمسند و الجمل والوضع ليست كلمات منفصلة ، ولكنها مرتبطة ببعضها البعض. تشمل اللعات اللاتينية والتركية والفنلندية والمالايالامية.الغنية شكليا
لأنظمة التي يمكن تشغيلها على دفعات ، مثل تحليل كتالوج منتجات البيع بالتجزئة.يمكن استخدام نماذج أكثر تقدمًا وأبطأ. يمكن أن يساعد هذا أيضًا في تحسين التكاليف حيثما كان ذلك ممكنًا.لا يلزم وقت استجابة منخفض للنموذج ، أو يمكن تشغيل النموذج بطريقة بدون إنترنت

إضافة تعليق