يعد استخراج السمات خطوة مهمة لأي مشكلة في تعلم الألة. بغض النظر عن مدى جودة خوارزمية النمذجة التي تستخدمها ، إذا قمت بإدخال سمات ضعيفة ، فستحصل على نتائج سيئة. في علوم الكمبيوتر ، يُطلق على هذا غالبًا “إدخال القمامة ، إخراج القمامة”. في المقالات السابقة لسلسة معالجة اللغة الطبيعية ، رأينا نظرة عامة على معالجة اللغة الطبيعية ، والمهام والتحديات المختلفة التي تنطوي عليها ، وكيف يبدو خط إنتاج معالجة اللغة الطبيعية النموذجي.
في المقالين القادمين، سنتناول السؤال: كيف يمكننا القيام بهندسة السمات للبيانات النصية؟ بعبارة أخرى ، كيف نحول نصًا معينًا إلى شكل رقمي بحيث يمكن إدخاله في خوارزميات معالجة اللغة الطبيعية و تعلم الألة.
في لغة معالجة اللغة الطبيعية ، يسمى هذا التحويل للنص الخام إلى شكل رقمي مناسب تمثيل النص (Text Representation) سنلقي نظرة على الطرق المختلفة لتمثيل النص ، أو تمثيل النص كمتجه رقمي. فيما يتعلق بالصورة الأكبر لأي مشكلة في معالجة اللغة الطبيعية
يمثل تمثيل السمة خطوة شائعة في أي مشروع ML ، سواء كانت البيانات نصية أو صورًا أو مقاطع فيديو أو كلامًا. ومع ذلك ، غالبًا ما يكون تمثيل السمة للنص أكثر تعقيداً مقارنةً بتنسيقات البيانات الأخرى. يتم تصنيف سبل تصنيف السمة بأربعة أساليب :
- أساليب المتجهات الأساسية (Basic vectorization approaches)
- التمثيلات موزعة (Distributed representations)
- تمثيل اللغة عالمي (Universal language representation)
- سمات مصنوعة يدويًا (Distributed representations)
سنتحدث عن كل واحدة من هذه الأساليب بالتفصيل في مقالات منفصلة ، ونغطي الخوارزميات المختلفة في كل منها. ضع في اعتبارك السيناريو التالي: لقد تم إعطاؤنا مجموعة نصية معنونة وطلب منا بناء نموذج لتحليل المشاعر. للتنبؤ بشكل صحيح بمشاعر الجملة ، يحتاج النموذج إلى فهم معنى الجملة. من أجل استخراج معنى الجملة بشكل صحيح ، فإن أهم نقاط البيانات هي:
1- قسّم الجملة إلى وحدات معجمية مثل المفردات والكلمات والعبارات
2- اشتق المعنى لكل وحدة معجمية
3- افهم البنية النحوية للجملة
4- افهم السياق الذي تظهر فيه الجملة
تنشأ دلالات الجملة (المعنى) من الجمع بين النقاط المذكورة أعلاه. وبالتالي ، يجب أن يسهل أي نظام تمثيل نصي جيد استخراج نقاط البيانات هذه بأفضل طريقة ممكنة لتعكس الخصائص اللغوية للنص. بدون ذلك ، لن يكون مخطط تمثيل النص ذا فائدة كبيرة.
نماذج فضاء المتجه (Vector Space Models)
لكي تعمل خوارزميات تعلم الألة مع البيانات النصية ، يجب تحويل البيانات النصية إلى شكل رياضي. سنقوم بتمثيل الوحدات النصية (الأحرف ، الصوتيات ، الكلمات ، عبارات وجمل وفقرات ومستندات) مع متجهات الأرقام. يُعرف هذا باسم نموذج فضاء المتجه (vector space model) أو بالإختصار (VSM).
وهو نموذج جبري بسيط يُستخدم على نطاق واسع لتمثيل أي كائن نصي. يعد VSM أمرًا أساسيًا للعديد من عمليات استرجاع المعلومات ، بدءًا من تسجيل درجات المستندات في استعلام إلى تصنيف المستندات وتجميع المستندات.
إنه نموذج رياضي يمثل الوحدات النصية كمتجهات. في أبسط أشكالها ، هذه متجهات للمعرفات ، مثل أرقام الفهرس في مجموعة مفردات المجموعة.
الطريقة الأكثر شيوعًا لحساب التشابه بين نقطتين نصيتين هي استخدام تشابه جيب التمام: جيب التمام للزاوية بين المتجهات المقابلة لها. جيب تمام 0 درجة هو 1 وجيب تمام 180 درجة هو -1 ، بما أن جيب التمام يتناقص بشكل منظم من 0 درجة إلى 180 درجة. بالنظر إلى متجهين ، A و B ، يحتوي كل منهما على n من المكونات ، يتم حساب التشابه بينهما على النحو التالي:
حيث Ai و Bi هما مكونات i للمتجهين A و B على التوالي. في بعض الأحيان ، يستخدم الناس أيضًا المسافة الإقليدية (Euclidean distance) بين المتجهات لالتقاط التشابه.
أساليب المتجهات الأساسية (Basic Vectorization Approaches)
لنبدأ بفكرة أساسية عن تمثيل النص: قم بتعيين كل كلمة في المفردات (V) من مجموعة النص إلى معرف فريد (قيمة عدد صحيح) ، ثم قم بتمثيل كل جملة أو مستند في المجموعة كمتجه V الأبعاد. كيف يمكننا تطبيق هذه الفكرة؟
لفهم هذا بشكل أفضل ، دعنا نأخذ مجموعة مكونه من أربعة مستندات فقط – D1 ، D2 ، D3 ، D4 – كمثال.
مجموعة هي :
D1 Dog bites man.
D2 Man bites dog.
D3 Dog eats meat.
D4 Man eats food.
يتألف النص المكتوب من ست كلمات: [dog, bites, man, eats, meat, food]. يمكننا تنظيم المفردات بأي ترتيب. في هذا المثال ، نأخذ ببساطة الترتيب الذي تظهر به الكلمات في المجموعة.
يمكن الآن تمثيل كل مستند في هذه المجموعة بمتجه بحجم ستة. سنناقش طرقًا متعددة يمكننا من خلالها القيام بذلك. سنفترض أن النص تمت معالجته مسبقًا (تصغير كل الحروف ، إزالة علامات الترقيم ، وما إلى ذلك) وتم تعميله (تجزيئ النص إلى عملات (Tokens) ) .
باتباع خطوة المعالجة المسبقة في خط إنتاج معالجة اللغات الطبيعية الموضح في المقال رقم 4 . سنبدأ بإستخدام خط الترميز الأحادي.
خط الترميز الأحادي (One-Hot Encoding)
في خط الترميز الأحادي ، يتم إعطاء كل كلمة w في مجموعة المفردات رقمً تعريف فريد Wid يتراوح بين 1 و | V | .
حيث V هي مجموعة المفردات . ثم يتم تمثيل كل كلمة بواسطة متجه ثنائي الأبعاد من 0 و 1. يتم ذلك عبر متجه أبعاد مقدارها | V | مملوء كلها بـ صفر باستثناء الفهرس ، حيث index = wid.
في هذا الفهرس ، نضع ببساطة 1. ثم يتم دمج تمثيل الكلمات الفردية لتشكيل تمثيل للجملة.
دعونا نفهم هذا من خلال مجموعة البيانات الصغيرة لدينا. نقوم أولاً بتعيين كل كلمة من الكلمات الست لمعرفات فريدة:
dog = 1, bites = 2, man = 3, meat = 4 , food = 5, eats = 6
دعنا نفكر في المستند D1 وهو “dog bites man”. وفقًا للمخطط ، كل كلمة عبارة عن متجه سداسي الأبعاد.
- يتم تمثيل Dog كـ [1 0 0 0 0 0] ، حيث يتم تعيين كلمة “Dog” إلى المعرف 1.
- يتم تمثيل Bites كـ [0 1 0 0 0 0]
- يتم تمثيل Man كـ [0 0 1 0 0 0]
وبالتالي ، يتم تمثيل D1 كـ [[1 0 0 0 0 0] [0 1 0 0 0 0] [0 0 1 0 0 0]].
كما يتم تمثيل D4 كـ [[0 0 1 0 0] [0 0 0 0 1 0] [0 0 0 0 0 1]]. يمكن تمثيل المستندات الأخرى في المجموعة بالمثل.
دعونا نلقي نظرة على طريقة بسيطة لتنفيذ ذلك في بايثون ، نظرًا لأننا نفترض أن النص تم ترميزه ، يمكننا فقط تقسيم النص بناء على الفراغات في هذا المثال:
الآن بعد أن فهمنا المخطط ، دعنا نناقش بعض إيجابياته وسلبياته. على الجانب الإيجابي ، يعد خط الترميز الأحادي بديهيًا للفهم ومباشرًا في التنفيذ. ومع ذلك ، فإنه يعاني من بعض النواقص:
- يتناسب حجم خط الترميز الأحادي بشكل مباشر مع حجم المفردات ، ومعظم مجموعات العالم الحقيقي بها مفردات كبيرة. ينتج عن هذا تمثيل متناثر حيث تكون معظم الإدخالات في المتجهات أصفارًا ، مما يجعلها غير فعالة من الناحية الحسابية للتخزين والحساب والتعلم منها (يؤدي التباين إلى فرط التخصيص (overfitting)).
- لا يعطي هذا التمثيل تمثيلاً بطول ثابت للنص ، أي إذا كان النص يحتوي على 10 كلمات ، فستحصل على تمثيل أطول له مقارنةً بالنص المكون من 5 كلمات. بالنسبة لمعظم خوارزميات التعلم ، نحتاج إلى أن تكون متجهات السمات بنفس الطول.
- يتعامل مع الكلمات كوحدات ذرية وليس لديه فكرة (عدم) التشابه بين الكلمات. على سبيل المثال ، ضع في اعتبارك ثلاث كلمات: run, ran, and apple .لدينا run, ran لهما نفس المعاني على عكسran, and apple . ولكن إذا أخذنا المتجهات الخاصة بهم وحسبنا المسافة الإقليدية بينهم ، فجميعهم متباعدون بالتساوي .وبالتالي ، من الناحية اللغوية ، فالخوارزمية ضعيفة جداً في فهم معنى الكلمة بالنسبة إلى الكلمات الأخرى.
- لنفترض أننا ندرب نموذجًا باستخدام مجموعة بيانات. في وقت التشغيل ، نحصل على جملة: “man eats fruits”. لم تتضمن بيانات التدريب “fruit” ولا توجد طريقة لتمثيلها في نموذجنا. وهذا ما يعرف بمشكلة خارج المفردات (out of vocabulary) أو بإختصار (OOV). لا يمكن لنظام خط الترميز الأحادي التعامل مع هذا. الطريقة الوحيدة هي إعادة تدريب النموذج: نبدأ بتوسيع المفردات ، وإعطاء معرف للكلمة الجديدة ، وما إلى ذلك.
للمعلومية : في هذه الأيام ، نادرًا ما يتم استخدام مخطط خط الترميز الأحادي.
يمكن معالجة بعض أوجه القصور هذه من خلال نهج حقيبة الكلمات (Bag of Words) .
حقيبة الكلمات (Bag of Words)
حقيبة الكلمات (BoW) هي تقنية تمثيل نص كلاسيكية تم استخدامها بشكل شائع في معالجة اللغات الطبيعية ، خاصة في مشاكل تصنيف النص .
الفكرة الرئيسية وراء ذلك هي كما يلي: تمثيل النص قيد النظر كحقيبة (مجموعة) من الكلمات مع تجاهل الترتيب والسياق.
الحدس الأساسي وراء هذا هو أنه يفترض أن النص الذي ينتمي إلى فئة معينة في مجموعة البيانات يتميز بمجموعة فريدة من الكلمات. إذا كان هناك نصان يحتويان على نفس الكلمات تقريبًا ، فإنهما ينتميان إلى نفس الحقيبة (الفئة). وبالتالي ، من خلال تحليل الكلمات الموجودة في جزء من النص ، يمكن للمرء تحديد الفئة (الحقيبة) التي تنتمي إليها.
على غرار خط الترميز الأحادي ، تقوم حقيبة الكلمات (BoW) بتعيين الكلمات إلى معرفات صحيحة فريدة بين 1 و | V |. ثم يتم تحويل كل مستند في المجموعة إلى متجه لـه | V | أبعاد حيث أن المكون ith من المتجه ، i = Wid ، هو ببساطة عدد المرات التي تظهر فيها الكلمة w في المستند ، أي أننا ببساطة نحسب كل كلمة في V بناء على عدد مرات ظهورها في المستند.
وهكذا ، بالنسبة لمجموعة بيانات ، حيث تكون معرفات الكلمة كالأتي :
dog = 1, bites = 2, man = 3, meat = 4 , food = 5, eats = 6
نجد ان D1 تصبح [1 1 1 0 0 0]. وذلك لأن الكلمات الثلاث الأولى في المفردات ظهرت مرة واحدة بالضبط في D1 ، ولم تظهر الكلمات الثلاث الأخيرة على الإطلاق.
و بالمثل D4 تصبح [0 0 1 0 1 1] يوضح الكود التالي الأجزاء الرئيسية:
إذا قمنا بتشغيل هذا الكود ، فسنلاحظ أن تمثيل BoW لجملة مثل “dog and dog are friends” له قيمة 2 لبُعد الكلمة “dog” ، مما يشير إلى تكرارها في النص. في بعض الأحيان ، لا نهتم بتكرار حدوث الكلمات في النص ونريد فقط تمثيل ما إذا كانت الكلمة موجودة في النص أم لا. أظهر الباحثون أن مثل هذا التمثيل دون النظر إلى التردد مفيد لتحليل المشاعر. في مثل هذه الحالات ، نقوم فقط بتهيئة CountVectorizer باستخدام الخيار binary = True ، كما هو موضح في الكود التالي:
ينتج عن هذا تمثيل مختلف لنفس الجملة. يدعم CountVectorizer كلاً من الكلمات والحروف n-grams.
المزايا و العيوب
دعونا نلقي نظرة على بعض مزايا هذا الترميز:
- مثل خط الترميز الأحادي ، فإن حقيبة الكلمات سهلة الفهم والتنفيذ إلى حد ما.
- باستخدام هذا التمثيل ، سيكون للمستندات التي تحتوي على نفس الكلمات تمثيلات متجهية أقرب إلى بعضها البعض في الفضاء الإقليدي مقارنة بالمستندات التي تحتوي على كلمات مختلفة تمامًا. في مثالنا المسافة بين D1 و D2 هي 0 مقارنة بالمسافة بين D1 و D4 ، وهي 2. وبالتالي ، فإن مساحة المتجه الناتجة عن مخطط BoW تلتقط التشابه الدلالي للمستندات. لذلك إذا كان هناك مستندان لهما مفردات متشابهة ، فسيكونان أقرب إلى بعضهما البعض في فضاء المتجه والعكس صحيح.
- لدينا ترميز بطول ثابت لأي جملة ذات طول تعسفي.
ومع ذلك ، فإن له نصيبه من العيوب أيضًا:
- يزداد حجم المتجه مع حجم المفردات. وبالتالي ، لا يزال التناثر يمثل مشكلة. إحدى طرق التحكم فيه هي قصر المفردات على عدد n من الكلمات الأكثر شيوعًا.
- لا يلتقط التشابه بين الكلمات المختلفة التي تعني نفس الشيء. لنفترض أن لدينا ثلاث أمثلة : “I run” و “I ran” و “I ate”. متجهات حقيبة الكلمات لجميع المستندات الثلاثة ستكون منفصلة بشكل متساوٍ.
- هذا التمثيل ليس لديه أي طريقة للتعامل مع الكلمات خارج المفردات (أي الكلمات الجديدة التي لم يتم رؤيتها في المجموعة التي تم استخدامها لبناء المتجه).
- كما يشير الاسم ، فهو “حقيبة” من الكلمات – يتم فقد معلومات ترتيب الكلمات في هذا التمثيل. سيكون لكل من D1 و D2 نفس التمثيل في هذا المخطط.
ومع ذلك ، على الرغم من أوجه القصور هذه ، نظرًا لبساطتها وسهولة تنفيذها ، فإن حقيبة الكلمات هي مخطط تمثيل نصي شائع الاستخدام ، خاصة لتصنيف النص من بين مشاكل معالجة اللغة الطبيعية الأخرى.
حقيبة من ن-جرام (BoN)
تعامل جميع مخططات التمثيل التي رأيناها حتى الآن الكلمات كوحدات مستقلة. لا يوجد مفهوم للعبارات أو ترتيب الكلمات. يحاول نهج حقيبة من ن-جرام (bag-of-n-grams) معالجة هذا الأمر. يقوم بذلك عن طريق تقسيم النص إلى مجموعات من n كلمات متجاورة (أو عملات). يمكن أن يساعدنا هذا في التقاط بعض السياق ، والذي لم تستطع الأساليب السابقة القيام به.
كل مجموعة تسمى n-gram. إن مفردات المجموعة ، V ، ليست سوى مجموعة من جميع n-grams الفريدة في مجموعة النص لدينا . بعد ذلك ، يتم تمثيل كل مستند في المجموعة بواسطة متجه بطول | V |. يحتوي هذا المتجه ببساطة على عدد مرات تكرار n-grams الموجودة في المستند وصفر لـ n-grams غير الموجودة.
للتوضيح ، دعونا ننظر في مجموعة بياناتنا. لنقم ببناء نموذج مكون من 2 جرام (يُعرف أيضًا باسم bigram). مجموعة كل bigrams في الجسم هي كما يلي:{dog bites, bites man, man bites, bites dog, dog eats, eats meat, man eats, eats food}.
بعد ذلك ، يتكون تمثيل حقيبة من ن-جرام ( BoN) من متجه ثماني الأبعاد لكل مستند. تمثيل Bigram لأول مثالين هما كما يلي: D1: [1،1،0،0،0،0،0،0]، D2: [0،0،1،1،0،0،0،0 ]..
لاحظ أن مخطط حقيبة الكلمات (BoW) هو حالة خاصة لمخطط النجرامات (BoN) ، حيث n = 1.
يُطلق على n = 2 اسم “نموذج ثنائي الجرام (bigram)” ، ويُطلق على n = 3 اسم “نموذج ثلاثي الجرام (trigram)”. علاوة على ذلك ، لاحظ أنه من خلال زيادة قيمة n ، يمكننا دمج سياق أكبر ؛ ومع ذلك ، فإن هذا يزيد من تناثر.
في سياق معالجة اللغة الطبيعية ، يسمى مخطط BoN أيضًا “اختيار سمة n-gram.”
يُظهر الكود التالي مثالاً لتمثيل BoN مع الأخذ في الاعتبار سمات الكلمات المكونة من 1 إلى 3 ن-جرام لتمثيل المجموعة التي استخدمناها حتى الآن. هنا ، نستخدم متجهات أحادي الجرام unigram و ثنائي الجرام bigram و ثلاثي الجرام trigram من خلال تعيين ngram_range = (1،3):
المزايا و العيوب
فيما يلي أهم إيجابيات وسلبيات BoN:
- يلتقط بعض السياق ومعلومات ترتيب الكلمات في شكل n-grams.
- وبالتالي ، فإن مساحة المتجه الناتجة قادرة على التقاط بعض التشابه الدلالي. المستندات التي تحتوي على نفس n-grams سيكون لها متجهات أقرب إلى بعضها البعض في المساحة الإقليدية مقارنة بالمستندات التي تحتوي على n-grams مختلفة تمامًا.
- مع زيادة n ، تزداد الأبعاد (وبالتالي التناثر) بسرعة.
- هذا التمثيل ليس لديه أي طريقة للتعامل مع الكلمات خارج المفردات (أي الكلمات الجديدة التي لم يتم رؤيتها في المجموعة التي تم استخدامها لبناء المتجه).
تكرار المصطلح – تكرار المستند العكسي ( TF-IDF)
في جميع الأساليب الثلاثة التي رأيناها حتى الآن ، يتم التعامل مع جميع الكلمات في النص على أنها مهمة بنفس القدر – لا توجد فكرة أن بعض الكلمات في المستند أكثر أهمية من غيرها. TF-IDF ، أو تكرار المصطلح – تكرار المستند العكسي (term frequency–inverse document frequency) ، يعالج هذه المسألة. ويهدف إلى تحديد أهمية كلمة معينة بالنسبة للكلمات الأخرى في المستند وفي المجموعة. إنه مخطط تمثيل شائع الاستخدام لأنظمة استرجاع المعلومات ، لاستخراج المستندات ذات الصلة من مجموعة لاستعلام نصي معين.
الفكرة وراء TF-IDF هي كما يلي: إذا ظهرت كلمة w عدة مرات في مستند di ولكنها لم تظهر كثيرًا في بقية المستندات dj في المجموعة ، فيجب أن تكون الكلمة w ذات أهمية كبيرة للوثيقة di . يجب أن تزداد أهمية w بما يتناسب مع تواترها في di ، ولكن في الوقت نفسه ، يجب أن تقل أهميتها بما يتناسب مع تكرار الكلمة في المستندات الأخرى dj في المجموعة. رياضيًا ، يتم التقاط هذا باستخدام كميتين: TF و IDF. ثم يتم الجمع بين الاثنين للوصول إلى درجة TF-IDF.
يقيس TF (تكرار المصطلح) عدد مرات ظهور مصطلح أو كلمة في مستند معين. نظرًا لأن المستندات المختلفة في مجموعة المستندات قد تكون ذات أطوال مختلفة ، فقد يتكرر مصطلح في كثير من الأحيان في مستند أطول مقارنة بمستند أقصر. لتسوية هذه الأعداد ، نقسم عدد التكرارات على طول المستند. يتم تعريف TF للمصطلح t في الوثيقة d على النحو التالي:
يقيس IDF (تكرار المستند العكسي) أهمية المصطلح عبر مجموعة. في حساب TF ، يتم إعطاء جميع المصطلحات أهمية متساوية (وزن). ومع ذلك ، فمن المعروف جيدًا أن كلمات التوقف مثل is, are, am, etc. وما إلى ذلك ، ليست مهمة ، على الرغم من تكرارها. لحساب مثل هذه الحالات ،يقلل IDF وزن المصطلحات الشائعة جدًا عبر مجموعة ما و يزيد وزن المصطلحات النادرة. يتم حساب IDF للمصطلح t على النحو التالي:
درجة TF-IDF هي نتاج هذين المصطلحين. وبالتالي ، درجة TF-IDF = TF * IDF. دعونا نحسب نتائج TF-IDF لمجموعة بياناتنا. تظهر بعض المصطلحات في مستند واحد فقط ، وبعضها يظهر في اثنين ، بينما يظهر البعض الآخر في ثلاث مستندات. حجم بيانتنا هو N = 4. ومن ثم ، فإن قيم TF-IDF المقابلة لكل مصطلح موضحة في الجدول 3-2.
| الكلمة | درجة TF | درجة IDF | درجة TF-IDF |
| dog | ⅓ = 0.33 | log2(4/3) = 0.4114 | 0.4114 * 0.33 = 0.136 |
| bites | ⅙ = 0.17 | log2(4/2) = 1 | 1* 0.17 = 0.17 |
| man | 0.33 | log2(4/3) =0.4114 | 0.4114 * 0.33 = 0.136 |
| eats | 0.17 | log2(4/2) =1 | 1* 0.17 = 0.17 |
| meat | 1/12 = 0.083 | log2(4/1) =2 | 2* 0.083 = 0.17 |
| food | 0.083 | log2(4/1) =2 | 2* 0.083 = 0.17 |
تمثيل المتجه TF-IDF لمستند ما هو ببساطة درجة TF-IDF لكل مصطلح في تلك الوثيقة. لذلك ، بالنسبة لـ D1 نحصل على
| Dog | bites | man | eats | meat | food |
| 0.136 | 0.17 | 0.136 | 0 | 0 | 0 |
يوضح الكود التالي كيفية استخدام TF-IDF لتمثيل النص:
هناك العديد من الاختلافات في صيغة TF-IDF الأساسية المستخدمة في الممارسة العملية. لاحظ أن درجات TF-IDF التي حسبناها لمجموعتنا في الجدول أعلاه قد لا تتطابق مع درجات TF-IDF التي قدمها scikit-Learn. هذا لأن scikit-learn يستخدم نسخة معدلة قليلاً من صيغة IDF. ينبع هذا من الأحكام لحساب التقسيمات الصفرية المحتملة وعدم تجاهل المصطلحات التي تظهر في جميع المستندات تمامًا. للمزيد من التفاصيل يمكن الإطلاع على المعادلات المستخدمة هنا
على غرار BoW ، يمكننا استخدام متجهات TF-IDF لحساب التشابه بين نصين باستخدام مقياس تشابه مثل المسافة الإقليدية أو تشابه جيب التمام. TF-IDF هو تمثيل شائع الاستخدام في سيناريوهات التطبيق مثل استرجاع المعلومات وتصنيف النص. ومع ذلك ، على الرغم من حقيقة أن TF-IDF أفضل من أساليب التوجيه التي رأيناها سابقًا من حيث التقاط أوجه التشابه بين الكلمات ، إلا أنها لا تزال تعاني من لعنة الأبعاد العالية.
حتى اليوم ، لا يزال TF-IDF يمثل مخططًا شائعًا للعديد من مهام معالجة اللغة الطبيعية ، خاصة الإصدارات الأولية من الحل.
ختاماً
إذا نظرنا إلى في جميع مخططات التمثيل التي ناقشناها حتى الآن ، فإننا نلاحظ ثلاثة عيوب أساسية:
- إنها تمثيلات منفصلة – أي أنها تعامل وحدات اللغة (الكلمات ، n-grams ، إلخ) كوحدات ذرية. هذا التحفظ يعيق قدرتهم على التقاط العلاقات بين الكلمات.
- متجهات السمة هي تمثيلات متفرقة وعالية الأبعاد. تزداد الأبعاد مع حجم المفردات ، حيث تكون معظم القيم صفرًا لأي متجه. هذا يعيق القدرة على التعلم. علاوة على ذلك ، فإن تمثيل الأبعاد العالية يجعلها غير فعالة من الناحية الحسابية.
- لا يمكنهم التعامل مع كلمات من الكلمات خارج المفردات.
بهذا نصل إلى نهاية مناهج التوجيه الأساسية. الآن ، دعونا نبدأ في النظر في التمثيلات الموزعة.




إضافة تعليق