أغلبنا قد استخدم مساعدين أذكياء مثل اليكسا من أمازون أو مُساعدة غوغل أو سيري من أبل. نتحدث إلى هؤلاء المساعدين ليس بلغة برمجية ، ولكن بلغتنا الطبيعية – اللغة التي نتواصل بها جميعًا. اللغة الطبيعية هي الوسيلة الأساسية للتواصل بين البشر منذ القدم. لكن أجهزة الكمبيوتر يمكنها فقط معالجة البيانات في نظام ثنائي ، أي 0 و 1. بينما يمكننا تمثيل بيانات اللغة في نظام ثنائي ، كيف نجعل الآلات تفهم اللغة؟هنا يأتي دور معالجة اللغة الطبيعية (natural language processing) أو بإختصار (NLP).
و هو مجال من مجالات علوم الكمبيوتر الذي يتعامل مع طرق لتحليل اللغة البشرية ونمذجتها وفهمها. كل تطبيق ذكي يتضمن التواصل بلغة يحتوي على بعض أنظمة معالجة اللغة الطبيعية وراءه.
في هذه السلسة من المقالات ، سنشرح ما هي معالجة اللغة الطبيعية وكذلك كيفية استخدام معالجة اللغة الطبيعية لبناء التطبيقات الذكية وتوسيع نطاقها. نظرًا للطبيعة المفتوحة لمشاكل معالجة اللغة الطبيعية ، هناك العشرات من الأساليب البديلة التي يمكن للمرء اتباعها لحل مشكلة معينة.
سنبدأ في هذه المقالة بإلقاء نظرة عامة على العديد من تطبيقات معالجة اللغة الطبيعية في سيناريوهات العالم الحقيقي
معالجة اللغة الطبيعية في العالم الحقيقي
معالجة اللغة الطبيعية هو مكون مهم في مجموعة واسعة من التطبيقات البرمجية التي نستخدمها في حياتنا اليومية. في هذا القسم ، سنقدم بعض التطبيقات الرئيسية ونلقي نظرة أيضًا على بعض المهام الشائعة التي ستراها عبر تطبيقات معالجة اللغة الطبيعية المختلفة.
الاستخدامات الأساسية:
- تستخدم أنظمة البريد الإلكتروني ، مثل Gmail و Outlook وما إلى ذلك ، معالجة اللغة الطبيعية على نطاق واسع لتوفير مجموعة من المميزات ، مثل تصنيف البريد العشوائي ، وصندوق الوارد ذي الأولوية ، واستخراج أحداث التقويم ، والإكمال التلقائي ، وما إلى ذلك.
- تعتمد المساعدين الصوتيين ، مثل Apple Siri و Google Assistant و Microsoft Cortana و Amazon Alexa ، على مجموعة من تقنيات معالجة اللغة الطبيعية للتفاعل مع المستخدم وفهم أوامر المستخدم والاستجابة وفقًا لذلك.
- تستخدم محركات البحث الحديثة ، مثل Google و Bing ، والتي تعد حجر الأساس في الإنترنت اليوم ، معالجة اللغة الطبيعية بشكل كبير لمختلف المهام الفرعية ، مثل فهم الاستعلام ، وتوسيع الاستعلام ، والإجابة على الأسئلة ، واسترجاع المعلومات ، وترتيب النتائج وتجميعها.
- تُستخدم خدمات الترجمة الآلية ، مثل Google Translate و Bing Microsoft Translator و Amazon Translate بشكل متزايد في العالم اليوم لحل مجموعة واسعة من السيناريوهات وحالات استخدام الأعمال.
الإستخدامات الأخرى:
- تقوم المنظمات في شتى القطاعات بتحليل خلاصات الوسائط الاجتماعية الخاصة بها لبناء فهم أفضل وأعمق لصوت عملائها.
- تستخدم معالجة اللغة الطبيعية على نطاق واسع لحل مجموعات متنوعة من حالات الاستخدام على منصات التجارة الإلكترونية مثل أمازون. تختلف هذه من استخراج المعلومات ذات الصلة من أوصاف المنتج لفهم مراجعات المستخدم.
- يتم تطبيق التطورات في معالجة اللغة الطبيعية لحل حالات الاستخدام في مجالات مثل الرعاية الصحية والتمويل والقانون.
- تعمل شركات مثل Arria على استخدام تقنيات معالجة اللغة الطبيعية لإنشاء تقارير تلقائيًا لمختلف المجالات ، من التنبؤ بالطقس إلى الخدمات المالية.
- تشكل معالجة اللغة الطبيعية (NLP) العمود الفقري لأدوات التصحيح الإملائي والنحوي ، مثل التدقيق الإملائي والنحوي في Microsoft Word و Google Docs.
- تُستخدم معالجة اللغة الطبيعية في مجموعة من أدوات وتقنيات التعلم والتقييم ، مثل التصحيح الآلي في الامتحانات ، واكتشاف السرقة أدبية (مثل Turnitin) ، وأنظمة التدريس الذكية ، وتطبيقات تعلم اللغة مثل Duolingo.
- تُستخدم معالجة اللغة الطبيعية لبناء قواعد معرفية كبيرة ، مثل Google Knowledge Graph ، وهي مفيدة في مجموعة من التطبيقات مثل البحث والإجابة على الأسئلة.
هذه القائمة ليست بأي حال شاملة. يتم استخدام معالجة اللغة الطبيعية بشكل متزايد عبر العديد من التطبيقات الأخرى ، وستظهر تطبيقات جديدة من معالجة اللغة الطبيعية كما نتحدث.
دعونا الأن نلقي نظرة على بعض مهام معالجة اللغة الطبيعية الرئيسية التي تشكل حجر الأساس للعديد من تطبيقات معالجة اللغة الطبيعية وحالات استخدام الصناعة.
مهام معالجة اللغة الطبيعية
هناك مجموعة من المهام الأساسية التي تظهر بشكل متكرر عبر مشاريع معالجة اللغة الطبيعية المختلفة. نظرًا لطبيعتها الأساسية المتكررة ، فقد تمت دراسة هذه المهام على نطاق واسع. وهي بإيجاز:
نمذجة اللغة (Language modeling)
هذه هي مهمة التنبؤ بما ستكون عليه الكلمة التالية في الجملة بناءً على تاريخ الكلمات السابقة. الهدف من هذه المهمة هو معرفة احتمالية ظهور سلسلة من الكلمات في لغة معينة. تعد نمذجة اللغة مفيدة لإنشاء حلول لمجموعة متنوعة من المشكلات ، مثل التعرف على الكلام والتعرف البصري على الأحرف والتعرف على خط اليد والترجمة الآلية والتصحيح الإملائي.
تصنيف النص (Text classification)
هذه هي مهمة تجميع النص في مجموعة معروفة من الفئات بناءً على محتواها. تصنيف النص هو إلى حد ما المهمة الأكثر شيوعًا في معالجة اللغة الطبيعية ويستخدم في مجموعة متنوعة من الأدوات ، من تحديد البريد الإلكتروني العشوائي إلى تحليل المشاعر.
استخراج المعلومات (Information extraction)
هذه مهمة استخراج المعلومات ذات الصلة من النص ، مثل أحداث التقويم من رسائل البريد الإلكتروني أو أسماء الأشخاص المذكورين في منشور على وسائل التواصل الاجتماعي.
استرجاع المعلومات (Information retrieval)
و هي مهمة البحث عن المستندات ذات الصلة باستعلام المستخدم من مجموعة كبيرة. تطبيقات مثل بحث Google هي حالات استخدام معروفة لاسترجاع المعلومات.
وكيل المحادثة (Conversational agent)
هذه هي مهمة بناء أنظمة الحوار التي يمكنها التحدث بلغات البشر. Alexa و Siri وما إلى ذلك ، هي بعض التطبيقات الشائعة لهذه المهمة.
تلخيص النص (Text summarization)
تهدف هذه المهمة إلى إنشاء ملخصات قصيرة للمستندات الأطول مع الاحتفاظ بالمحتوى الأساسي والحفاظ على المعنى العام للنص.
إجابة السؤال (Question answering)
هذه هي مهمة بناء نظام يمكنه الإجابة تلقائيًا على الأسئلة المطروحة بلغة طبيعية.
الترجمة الآلية (Machine translation)
هذه هي مهمة تحويل جزء من النص من لغة إلى أخرى. أدوات مثل Google Translate هي تطبيقات شائعة لهذه المهمة.
نمذجة الموضوع (Topic modeling)
هذه هي مهمة الكشف عن البنية الموضوعية لمجموعة كبيرة من الوثائق. نمذجة الموضوع هي أداة شائعة للتنقيب عن النصوص وتستخدم في مجموعة واسعة من المجالات ، من الأدب إلى المعلومات الحيوية.
يوضح الصورة التالية وصفًا لهذه المهام بناءً على الصعوبة النسبية لها من حيث تطوير حلول شاملة.
لنفهم سويا أسباب الصعوبة و التحديات التي ستواجهنا عند تطوير حلول لهذه الأنطمة ، من المفيد أن يكون لديك فهم لطبيعة لغة الإنسان والتحديات في أتمتة معالجة اللغة.
ما هي لغة؟
اللغة هي نظام اتصال منظم يتضمن مجموعات معقدة من المكونات، مثل الحروف والكلمات والجمل وما إلى ذلك. علم اللغة هو الدراسة المنهجية للغة. من أجل دراسة معالجة اللغة الطبيعية ، من المهم فهم بعض المفاهيم اللغوية حول كيفية بناء اللغة.
يمكننا أن نفكر في اللغة البشرية على أنها مكونة من أربع كتل بناء رئيسية: الصوتيات ، المقطع الصرفي و المفردات ، النحو، والسياق. تحتاج تطبيقات معالجة اللغة الطبيعية إلى معرفة المستويات المختلفة لهذه الكتل الأساسية، بدءًا من الأصوات الأساسية للغة (الصوتيات) و إنتهاءً بالنصوص التي تحتوي على بعض التعبيرات ذات المعنى (السياق).
الصورة أدناه توضح هذه المكونات الأساسية للغة ، وما تشمله ، وبعض تطبيقات معالجة اللغة التي تعتمد عليها
الأقسام الأساسية للغة
دعنا أولاً نتعرف على هذه الأقسام اللغوية لإعطاء سياق للتحديات التي تنطوي عليها معالجة اللغات الطبيعية.
الصوتيات
الصوتيات هي أصغر وحدات الصوت في اللغة. قد لا يكون لها أي معنى في حد ذاتها ولكن يمكن أن تستحث المعاني عند نطقها بالاقتران مع الأصوات الأخرى. على سبيل المثال ، تحتوي اللغة الإنجليزية القياسية على 44 صوتًا ، وهي إما أحرف مفردة أو مجموعة من الأحرف . يوضح الجدول أدناه هذه الأصوات مع عينة من الكلمات. الصوتيات مهمة بشكل خاص في التطبيقات التي تتضمن فهم الكلام ، مثل التعرف على الكلام ونسخ الكلام إلى نص وتحويل النص إلى كلام.
المقطع الصرفي و المفردات
المقطع الصرفي هو أصغر وحدة لغة لها معنى. يتكون من مزيج من الصوتيات. ليست كل الصرافيات عبارة عن كلمات ، لكن كل البادئات واللواحق عبارة عن صرفيات . على سبيل المثال ، في كلمة “وmultimedia” ، لا تعد كلمة “multi-” كلمة بل هي بادئة تغير المعنى عند وضعها مع “media”، أما “Multi-” هي مقطع صرفي.
توضح الصورة أدناه بعض الكلمات وأشكالها. بالنسبة لكلمات مثل “cats” و “unbreakable” ، فإن صرفياتها هي مجرد مكونات للكلمة الكاملة ، بينما بالنسبة لكلمات مثل “tumbling ” و “unreliability” ، هناك بعض الاختلاف عند تقسيم الكلمات إلى صرفياتها.
المفردات هي الاختلافات الهيكلية للأشكال المرتبطة ببعضها البعض حسب المعنى. على سبيل المثال ، تنتمي “run” و “running” إلى نفس صيغة المفرد. يُعد التحليل الصرفي (Morphological analysis) ، الذي يحلل بنية الكلمات من خلال دراسة صرفياتها و مفرداتها، أحد الأساسيات للعديد من مهام معالجة اللغة الطبيعية ، مثل التعميل (tokenization) ، والاشتقاق (stemming) ، وتعلم تضمين الكلمات (word embeddings) ، وعلامات جزء من الكلام (part-of-speech tagging).
النحو
النحو هو مجموعة من القواعد لبناء جمل صحيحة نحويًا من الكلمات والعبارات في اللغة. يتم تمثيل البنية النحوية في اللغويات بعدة طرق مختلفة. الطريقة الشائعة لتمثيل الجمل هي شجرة التحليل.توضح الصورة التالية مثالاً لشجرة التحليل لجملتين باللغة الإنجليزية.
تظهر الصورة بنية هرمية للغة ، مع وجود الكلمات في أدنى مستوى ، تليها علامات جزء من الكلام ، متبوعة بعبارات ، وتنتهي بجملة في أعلى مستوى.
كلتا الجملتين لهما هيكل مماثل وبالتالي شجرة تحليل نحوية مماثلة. في هذا التمثيل ، يشير N إلى الاسم ، و V إلى للفعل ، و P لحرف الجر. يتم الإشارة إلى العبارة الاسمية بواسطة NP وعبارة الفعل بواسطة VP.
العبارتان الاسميتان هما “The girl” و “The boat” ، بينما عبارتا الفعل هما “laughed at the monkey” و “أsailed up the river”.
تسترشد البنية النحوية بمجموعة من القواعد النحوية للغة (على سبيل المثال ، تشتمل الجملة على NP و VP) ، وهذا بدوره يوجه بعض المهام الأساسية لمعالجة اللغة ، مثل التحليل.
التحليل هو مهمة في معالجة اللغة الطبيعية لإنشاء أمور مثل شجرة التحليل هذه تلقائيا. لاحظ أن بنية التحليل الموضحة أعلاه خاصة باللغة الإنجليزية.
السياق
السياق هو كيفية تجمع الأجزاء المختلفة في اللغة لتوصيل معنى معين. يتضمن السياق تاريخ اللغة ، و معرفة بالعالم بالإضافة إلى المنطق العام إلى جانب المعنى الحرفي للكلمات والعبارات.
يمكن أن يتغير معنى الجملة بناءً على السياق ، حيث يمكن أن يكون للكلمات والعبارات أحيانًا معانٍ متعددة. بشكل عام ، يتكون السياق من اللسانيات و التداوليات. اللسانيات هي المعنى المباشر للكلمات والجمل دون سياق خارجي. تضيف التداوليات معرفة العالم والسياق الخارجي للمحادثة لتمكيننا من استنتاج المعنى الضمني. تعد مهام معالجة اللغة الطبيعية المعقدة مثل اكتشاف السخرية والتلخيص ونمذجة الموضوع بعض المهام التي تستخدم السياق بكثافة.
علم اللغة هو دراسة اللغة ، وبالتالي فهو عالم واسع في حد ذاته ، وقد قدمت فقط بعض الأفكار الأساسية لتوضيح دور المعرفة اللغوية في معالجة اللغة الطبيعية. تتطلب المهام المختلفة في معالجة اللغة الطبيعية درجات متفاوتة من المعرفة حول الأقسام الأساسية للغة. الآن دعنا نرى لماذا يصعب فهم اللغة على أجهزة الكمبيوتر وما الذي يجعل معالجة اللغات الطبيعية صعبة.
لماذا معالجة اللغات الطبيعية صعبة؟
ما الذي يجعل معالجة اللغة الطبيعية (NLP) مجال صعب؟ إن غموض اللغة البشرية وإبداعها هما فقط سمتان من السمات التي تجعل من معالجة اللغة الطبيعية مجالًا يتطلب الكثير من الوقت و الجهد. سنتحدث عن هذين السمتين بقليل من التفصيل
الغموض
الغموض يعني عدم اليقين في المعنى. معظم اللغات البشرية غامضة بطبيعتها. تأمل الجملة التالية: “I made her duck”. هذه الجملة لها معاني متعددة. الأول: لقد طهيت لها بطة. المعنى الثاني: جعلتها تنحني لتتجنب شيئاً. هنا ، يأتي الغموض من استخدام كلمة “made “.
أي من المعنيين ينطبق على السياق الذي تظهر فيه الجملة. إذا ظهرت الجملة في قصة عن أم وطفل ، فمن المحتمل أن ينطبق المعنى الأول. ولكن إذا ظهرت الجملة في كتاب عن الرياضة ، فمن المحتمل أن ينطبق المعنى الثاني.
عندما يتعلق الأمر باللغة التصويرية – أي المصطلحات – يزداد الغموض أكثر. على سبيل المثال ، “He is as good as John Doe.” حاول أن تجيب ، “How good is he” تعتمد الإجابة على مدى تفوق جون دو .
المعرفة العامة
أحد الجوانب الرئيسية لأي لغة بشرية هو “المعرفة العامة”. إنها مجموعة كل الحقائق التي يدركها معظم البشر. في أي محادثة ، يُفترض أن هذه الحقائق معروفة ، حتى لو لم يتم ذكرها صراحة ، لكن لها تأثير على معنى الجملة. على سبيل المثال ، ضع في اعتبارك جملتين: “man bit dog” و “dog bit man”. نعلم جميعًا أنه من غير المحتمل أن تحدث الجملة الأولى ، في حين أن الجملة الثانية ممكنة جدًا. لماذا نقول ذلك؟ لأننا جميعًا “نعلم” أنه من غير المحتمل جدًا أن يعض الإنسان كلبًا.
علاوة على ذلك ، من المعروف أن الكلاب تعض البشر. هذه المعرفة مطلوبة لنقول إن الجملة الأولى من غير المحتمل أن تحدث بينما الجملة الثانية ممكنة. لاحظ أن هذه المعرفة العامة لم تذكر في أي من الجملتين. يستخدم البشر المعرفة العامة طوال الوقت لفهم أي لغة ومعالجتها. في المثال أعلاه ، الجملتان متشابهتان جدًا من الناحية التركيبية ، لكن الكمبيوتر سيجد صعوبة بالغة في التفريق بينهما ، لأنه يفتقر إلى المعرفة العامة لدى البشر. أحد التحديات الرئيسية في معالجة اللغة الطبيعية هو كيفية تشفير كل الأشياء التي تعتبر معرفة عامة للبشر في نموذج حسابي.
الإبداع
اللغة ليست مجرد قواعد نتبعها ؛ هناك أيضًا جانب إبداعي لها. يتم استخدام أنماط ولهجات وأنواع وأشكال مختلفة في أي لغة. القصائد هي مثال رائع للإبداع في اللغة. إن جعل الآلات تفهم الإبداع مشكلة صعبة ليس فقط في معالجة اللغة الطبيعية ، ولكن في الذكاء الاصطناعي بشكل عام.
التنوع بين اللغات
بالنسبة لمعظم اللغات في العالم ، لا يوجد صلة مباشر بين مفردات أي لغتين. هذا يجعل نقل حلول معالجة اللغة الطبيعية من لغة إلى أخرى أمرًا صعبًا. قد لا يعمل الحل الذي يعمل مع لغة على الإطلاق مع لغة أخرى. هذا يعني أنه إما بناء حل مستقل عن اللغة أو بناء حلول منفصلة لكل لغة. في حين أن الأول صعب للغاية من الناحية النظرية ، فإن الآخر شاق ويستغرق وقتًا طويلاً.
كل هذه المشكلات تجعل من معالجة اللغة الطبيعية مجالًا صعبًا – ولكنه مفيد – للعمل فيه. .
.
المراجع :
[1] Arria.com. “NLG for Your Industry”. [2]. Phonetic symbols for English.. [3] Bender, Emily M. “Linguistic Fundamentals for Natural Language Processing: 100 Essentials From Morphology and Syntax.” Synthesis Lectures on Human Language Technologies 6.3 (2013): 1–184. [4] Bender, Emily M. and Alex Lascarides. “Linguistic Fundamentals for Natural Language Processing II: 100 Essentials from Semantics and Pragmatics.” Synthesis Lectures on Human Language Technologies 12.3 (2019): 1–268.




إضافة تعليق