نتعامل مع الكثير من المحتوى النصي كل يوم ، سواء كانت رسائل قصيرة على الهاتف أو رسائل بريد إلكتروني يومية أو نصوص أطول نقرأها للمتعة أو في العمل أو لمتابعة الشؤون الجارية. مثل هذه الوثائق النصية هي مصدر غني للمعلومات بالنسبة لنا. اعتمادًا على السياق ، يمكن أن تعني “المعلومات” أشياء متعددة ، مثل الأحداث الرئيسية أو الأشخاص أو العلاقات بين الأشخاص أو الأماكن أو المنظمات ، إلخ. يشير استخراج المعلومات (Information Extraction) بإختصار (iE) إلى مهمة معالجة اللغة الطبيعية لاستخراج المعلومات ذات الصلة من المستندات النصية.
عند مقارنة النص بمصادر المعلومات المنظمة مثل قواعد البيانات أو الجداول أو المصادر شبه المهيكلة مثل صفحات الويب فإن النص هو شكل من أشكال البيانات غير المنظمة. على سبيل المثال ، في قاعدة البيانات ، نعرف أين نبحث عن شيء ما بناءً على مخططها. ومع ذلك ، إلى حد كبير ، تشتمل المستندات النصية عادةً على نص يتدفق بحرية بدون مخطط محدد. هذا يجعل معالجة البيانات مشكلة صعبة.
قد تحتوي النصوص على أنواع مختلفة من المعلومات. في معظم الحالات ، يكون استخراج المعلومات ذات النمط الثابت (على سبيل المثال ، العناوين وأرقام الهواتف والتواريخ وما إلى ذلك) مباشرًا نسبيًا باستخدام تقنيات الاستخراج القائمة على النمط. ومع ذلك ، قد يتطلب استخراج معلومات أخرى (مثل أسماء الأشخاص والعلاقات بين الكيانات المختلفة في النص وتفاصيل حدث التقويم وما إلى ذلك) معالجة لغة أكثر تقدمًا.
تم اقتراح طرق لاستخراج أنواع مختلفة من المعلومات من وثائق مثل الأوراق العلمية والتقارير الطبية في الماضي في مجتمع البحث. ومع ذلك ، يمكن اعتبار مؤتمرات فهم الرسائل التي نظمتها البحرية الأمريكية (1987-1998) نقطة البداية لبحوث العصر الحديث حول استخراج المعلومات من النص. تبع ذلك برنامج استخراج المحتوى التلقائي (1999-2008) وسلسلة مؤتمر تحليل النص (2009-2018) التي نظمتها NIST ، والتي قدمت مسابقات لاستخراج أنواع مختلفة من المعلومات من النص ، من التعرف على الأسماء من الكيانات المختلفة لبناء قواعد معرفية كبيرة قابلة للاستعلام. تتبع المكتبات والأساليب الحالية لاستخراج أشكال مختلفة من المعلومات من النص واستخدامها في تطبيقات العالم الحقيقي أصولها إلى البحث الذي بدأ في سلسلة المؤتمرات هذه. قبل أن نبدأ في البحث عن الأساليب والمكتبات الخاصة بـ إستخراج المعلومات ، دعنا أولاً نلقي نظرة على بعض الأمثلة عن أماكن استخدام إستخراج المعلومات في تطبيقات العالم الحقيقي.
تطبيقات إستخراج المعلومات
يستخدم إستخراج المعلومات في مجموعة واسعة من تطبيقات العالم الحقيقي ، من المقالات الإخبارية إلى وسائل التواصل الاجتماعي وحتى الإيصالات. هنا ، سنغطي تفاصيل عدد قليل منهم:
وضع علامات على الأخبار والمحتويات الأخرى
هناك الكثير من النصوص التي يتم إنشاؤها حول الأحداث المختلفة التي تحدث في جميع أنحاء العالم كل يوم. بالإضافة إلى تصنيف النص باستخدام الأساليب التي تمت مناقشتها في مقالات سابقة لهذه السلسة ، و التي تعتبر مفيدة لبعض التطبيقات ، مثل محركات البحث وأنظمة التوصية ، إذا تم تمييز هذه النصوص بكيانات مهمة مذكورة داخلها. على سبيل المثال ، انظر إلى الشكل أدناه ، الذي يظهر لقطة شاشة من الصفحة الرئيسية لأخبار.
يتم استخراج الأشخاص (على سبيل المثال ،دونالد ترمب) ، والمنظمات (على سبيل المثال ، وزارة العدل) ، والمواقع (مثل صنعاء) ، والأحداث الموجودة حاليًا في الأخبار وعرضها على القارئ حتى يتمكنوا من الانتقال مباشرة لأخبار عن كيان معين. هذا مثال على استخراج المعلومات في العمل في تطبيق شائع.
روبوتات المحادثة
يحتاج برنامج روبوت المحادثة (chatbot) إلى فهم سؤال المستخدم من أجل إنشاء / استرداد استجابة صحيحة. على سبيل المثال ، ضع في اعتبارك السؤال “ما أفضل المقاهي حول برج إيفل؟” يحتاج برنامج الدردشة الآلي إلى فهم أن “برج إيفل” و “مقهى” هما موقعان ، ثم تحديد المقاهي على مسافة معينة من برج إيفل. إستخراج المعلومات مفيد في استخراج مثل هذه المعلومات المحددة من مجموعة من البيانات المتاحة.
تطبيقات في وسائل التواصل الاجتماعي
يتم نشر الكثير من المعلومات عبر قنوات التواصل الاجتماعي مثل Twitter. قد يساعد استخراج المقتطفات المعلوماتية من نصوص وسائل التواصل الاجتماعي في اتخاذ القرار. مثال على حالة الاستخدام هو استخراج المعلومات الحساسة للوقت والتي يتم تحديثها بشكل متكرر ، مثل تحديثات حركة المرور وجهود الإغاثة في حالات الكوارث ، بناءً على التغريدات. يعد NLP for Twitter أحد أكثر التطبيقات المفيدة التي تستخدم المعلومات الوفيرة الموجودة في وسائل التواصل الاجتماعي.
استخراج البيانات من النماذج والإيصالات
تتمتع العديد من التطبيقات المصرفية في الوقت الحاضر بميزة مسح الشيك وإيداع الأموال مباشرة في حساب المستخدم. سواء كنت فردًا أو شركة صغيرة أو مؤسسة تجارية أكبر ، فليس من غير المألوف استخدام التطبيقات التي تقوم بمسح الفواتير والإيصالات. إلى جانب التعرف الضوئي على الحروف (optical character recognition) أو (OCR) ، تلعب تقنيات استخراج المعلومات دورًا مهمًا في هذه التطبيقات ، مثل Sensibill
الآن بعد أن أصبح لدينا فكرة عن ماهية إستخراج المعلومات وأين تكون مفيدة ، دعنا ننتقل إلى فهم المهام المختلفة التي يغطيها إستخراج المعلومات.
مهام استخراج المعلومات
استخراج المعلومات هو مصطلح يستخدم للإشارة إلى مجموعة من المهام المختلفة ذات التعقيد المتفاوت. الهدف الشامل لـ استخراج المعلومات هو استخراج “المعرفة” من النص ، وتوفر كل مهمة من هذه المهام معلومات مختلفة للقيام بذلك. لفهم ماهية هذه المهام ، ضع في اعتبارك المقتطف من مقالة New York Times الموضحة في الشكل أدناه.
كقراء بشريين ، نجد العديد من المعلومات المفيدة في هذا المقال. على سبيل المثال ، نعلم أن المقالة تدور حول Apple ، الشركة (وليس الفاكهة) ، وأنها تذكر شخصًا ، Luca Maestri ، وهو المدير المالي للشركة. تتناول المقالة إعادة شراء الأسهم والقضايا الأخرى المتعلقة بها. لكي تفهم الآلة كل هذا يتطلب ذلك مستويات مختلفة من إستخراج المعلومات.
- تحديد أن المقالة تدور حول “إعادة الشراء” أو “سعر السهم” يتعلق بمهمة إستخراج المعلومات لاستخراج الكلمات الرئيسية أو المفاتيح (keyword or keyphrase extraction ) أو (KPE).
- يقع تحديد شركة Apple كمنظمة و Luca Maestri كشخص ضمن مهمة إستخراج المعلومات المتمثلة في التعرف على الكيانات المسماة (named entity recognition) أو (NER).
- إن إدراك أن Apple ليست ثمرة ، ولكنها شركة ، وأنها تشير إلى Apple، Inc. وليس إلى شركة أخرى تحمل كلمة “apple” في اسمها ، فهذه مهمة إستخراج المعلومات التي تتمثل في توضيح الكيان المحدد والربط (named entity disambiguation and linking. ).
- يشير استخراج المعلومات التي تفيد بأن Luca Maestri هو المدير المالي لشركة Apple إلى مهمة إستخراج المعلومات المتمثلة في استخراج العلاقة (relation extraction).
هناك عدد قليل من مهام إستخراج المعلومات المتقدمة بخلاف تلك المذكورة أعلاه. تحديد أن هذه المقالة تدور حول حدث واحد (دعنا نسميها “Apple تعيد شراء الأسهم”) والقدرة على ربطها بمقالات أخرى تتحدث عن نفس الحدث بمرور الوقت يشير إلى مهمة إستخراج المعلومات لاستخراج الحدث (event extraction). مهمة أخرى ذات الصلة هي استخراج المعلومات الزمنية (temporal information extraction) ، والتي تهدف إلى استخراج معلومات حول الأوقات والتواريخ ، وهي مفيدة أيضًا لتطوير تطبيقات التقويم والمساعدين الشخصيين التفاعليين.
أخيرًا ، تتبع العديد من التطبيقات ، مثل الإنشاء التلقائي لتقارير الطقس أو إعلانات الرحلات ، نموذجًا قياسيًا مع بعض الفتحات التي يجب ملؤها بناءً على البيانات المستخرجة. تُعرف مهمة إستخراج المعلومات هذه بملء القالب (template filling).
تتطلب كل مهمة من هذه المهام مستويات مختلفة من معالجة اللغة. يمكن استخدام مجموعة من الأساليب المستندة إلى القواعد بالإضافة إلى التعلم الآلي الخاضع للإشراف وغير الخاضع للإشراف وشبه الإشراف (بما في ذلك مناهج التعلم العميق الحديثة) لتطوير حلول لحل هذه المهام.
ومع ذلك ، مع الأخذ في الاعتبار أن إستخراج المعلومات يعتمد إلى حد كبير على مجال التطبيق (على سبيل المثال ، التمويل ، والأخبار ، وشركات الطيران ، وما إلى ذلك) ، يتم تنفيذ إستخراج المعلومات في الصناعة بشكل عام كنظام هجين يشتمل على مناهج قائمة على القواعد (rule-based) وقائمة على التعلم (learning-based) [هنا ، هنا] .
لا يزال إستخراج المعلومات مجالًا نشطًا جدًا للبحث ، ولا تعتبر كل هذه المهام “محلولة” أو نضجت بدرجة كافية للحصول على مناهج قياسية يمكن استخدامها في سيناريوهات التطبيق الواقعية. تتم دراسة المهام مثل KPE و NER على نطاق أوسع من غيرها ولديها بعض الحلول المجربة والمختبرة. تعتبر بقية المهام أكثر صعوبة نسبيًا ، ومن الشائع الاعتماد على خدمات إدفع حسب إستخدامك من كبار المزودين مثل Microsoft و Google و IBM.
خط الإنتاج العام لـ إستخراج المعلومات
يتطلب خط الإنتاج العام لـ إستخراج المعلومات معالجة NLP أكثر دقة من تصنيف على سبيل المثال ، لتحديد الكيانات المسماة (أشخاص ، منظمات ، إلخ) ، نحتاج إلى معرفة علامات جزء الكلام للكلمات.
لربط مصادر مختلفة متصلة لنفس الكيان (على سبيل المثال ، ألبرت أينشتاين ، أينشتاين ، العالم ، هو ، وما إلى ذلك) ، سنحتاج إلى دقة المرجع المشترك (Coreference Resolution). لاحظ أن أيًا من هذه الخطوات لا يُعد إلزاميًا لبناء نظام تصنيف النص.
وبالتالي ، تعد إستخراج المعلومات مهمة أكثر كثافة في معالجة اللغة الطبيعية من تصنيف النص. يوضح الشكل التالي خط إنتاج معالجة لغة طبيعية نموذجي لمهام إستخراج المعلومات. ليست كل الخطوات في خط الإنتاج ضرورية لجميع مهام إستخراج المعلومات.
كما يوضح الشكل ، فإن استخراج العبارة الرئيسية هو المهمة التي تتطلب الحد الأدنى من معالجة معالجة اللغة الطبيعية (بعض الخوارزميات تقوم أيضًا بوضع علامات POS قبل استخراج العبارات الرئيسية) ، بينما ، بخلاف التعرف على الكيان المسمى ، تتطلب جميع مهام إستخراج المعلومات الأخرى معالجة مسبقة أعمق في معالجة اللغة الطبيعية متبوعة بنماذج تم تطويرها لتلك المهام المحددة.
عادةً ما يتم تقييم مهام إستخراج المعلومات من حيث الدقة و الإستدعاء و درجات F1 باستخدام مجموعات التقييم القياسية. بالنظر إلى المستويات المختلفة للمعالجة المسبقة المطلوبة في معالجة اللغة الطبيعية (NLP) ، تتأثر مهام إستخراج المعلومات أيضًا بدقة خطوات المعالجة هذه نفسها. يجب أن يأخذ جمع بيانات التدريب ذات الصلة وتدريب النماذج الخاصة بنا لـ إستخراج المعلومات ، إذا لزم الأمر ، كل هذه الجوانب في الاعتبار.
إضافة تعليق