في هذا المقال ، سنلقي نظرة على طريقة لمقارنة توزيعين احتماليين يسمى تباعد كولباك ليبلر (Kullback-Leibler Divergence) غالبًا ما يتم اختصاره إلى (تباعد KL) فقط. في كثير من الأحيان في الاحتمالات والإحصاءات ، سنستبدل البيانات المرصودة أو التوزيعات المعقدة بتوزيع أبسط وتقريبي. يساعدنا تباعد KL على قياس مقدار المعلومات التي نفقدها عندما نختار أسلوب تقريبي معين. و لكن قبل البدء في تفسير و شرح تباعد كولباك ليبر هناك عدة أمور يجب أن نفهمها .
ما هو التوزيع
بالتوزيع ، نشير إلى أشياء مختلفة مثل توزيعات البيانات أو التوزيعات الاحتمالية. نحن هنا مهتمون بالتوزيعات الاحتمالية. تخيل أنك ترسم محورين (أي X و Y) على ورقة ، سنتخيل التوزيع كانه خيط حيث يقع خيط بين المحورين. يمثل X و Y قيمًا مختلفة تهمك في الحصول على احتمالات. يمثل Y احتمال ملاحظة بعض القيمة على المحور X (y=P(x)).

هذا توزيع احتمالي مستمر. على سبيل المثال ، فكر في المحور X على أنه الارتفاع أو الإنسان و Y على أنه احتمال العثور على شخص بهذا الارتفاع.
إذا كنت ترغب في جعل هذا التوزيع الاحتمالي منفصلًا ، فإنك تقطع هذا الخيط إلى قطع ثابتة الطول وتحول القطع بطريقة أفقية. ثم قم بإنشاء مستطيلات تربط حواف كل قطعة من الخيط والمحور السيني. هذا توزيع احتمالي منفصل.
ما هو الحدث؟
التوزيع الاحتمالي المنفصل ، هناك حدث يلاحظ أن X تأخذ بعض القيمة (على سبيل المثال X = 1). دعونا ندعو احتمال P (X) = 1 للحدث X = 1. في الفضاء المستمر ، يمكنك التفكير في هذا كنطاق من القيم ( 0.95< X<1.05) لاحظ أن تعريف الحدث لا يقتصر على القيم التي يتخذها على المحور X. ومع ذلك يمكننا المضي قدما بالنظر إلى ذلك فقط.
تباعد كولباك ليبلر
لنبدأ استكشافنا من خلال النظر في مشكلة. لنفترض أننا علماء فضاء يزورون كوكبًا جديدًا وبعيدًا ، وقد اكتشفنا نوعًا من الديدان القارضة التي نود دراستها. لقد وجدنا أن هذه الديدان لها 10 أسنان ، ولكن بسبب قضمها ، ينتهي الكثير منها بفقدان الأسنان. بعد جمع العديد من العينات ، وصلنا إلى هذا التوزيع الاحتمالي التجريبي لعدد الأسنان في كل دودة:

التوزيع الاحتمالي التجريبي للبيانات التي تم جمعها
على الرغم من أن هذه البيانات رائعة ، إلا أننا نواجه بعض المشكلات. نحن بعيدون عن الأرض وإرسال البيانات إلى الوطن مكلف. ما نريد القيام به هو تقليل هذه البيانات إلى نموذج بسيط بمعييار معييارين فقط. أحد الخيارات هو تمثيل توزيع الأسنان في الديدان للتوزيع المنتظم (uniform distribution) . نحن نعلم أن هناك 11 قيمة محتملة ويمكننا فقط تعيين الاحتمال الموحد لـ 1/11 لكل من هذه الاحتمالات.

من الواضح أن بياناتنا ليست موزعة بشكل موحد ، لكنها لا تبدو أيضًا مثل الكثير من التوزيعات الشائعة التي نعرفها. خيار آخر يمكننا تجربته هو نمذجة بياناتنا باستخدام التوزيع ذي الحدين. في هذه الحالة كل ما علينا القيام به هو تقدير معييار الاحتمالية للتوزيع ذي الحدين. نحن نعلم أنه إذا كانت لدينا n تجارب واحتمالية p ، فإن التوقعات هي E [x] = n⋅p. في هذه الحالة n = 10 ، والتوقع هو مجرد متوسط بياناتنا ، والذي سنقوله هو 5.7 ، لذا فإن أفضل تقدير لـ p هو 0.57. سيعطينا هذا توزيعًا ذو الحدين يبدو كالتالي:

بمقارنة كل من نماذجنا ببياناتنا الأصلية يمكننا أن نرى أن أيا منهما ليس أفضل تطابق ، ولكن أيهما أفضل؟

مقارنة بالبيانات الأصلية ، من الواضح أن كلا التقريبين محدودان. كيف يمكننا اختيار أي واحد نستخدمه؟
هناك الكثير من مقاييس الأخطاء الحالية ، ولكن شاغلنا الأساسي هو تقليل كمية المعلومات التي يتعين علينا إرسالها. كلا النموذجين يقلل من مشكلتنا إلى معمييارين ، عدد الأسنان والاحتمال (على الرغم من أننا لا نحتاج إلا عدد الأسنان للتوزيع المنتظم). أفضل اختبار لمعرفة أي التوزيعيين أفضل هو السؤال عن التوزيع الذي يحتفظ بمعظم المعلومات من مصدر البيانات الأصلي. هنا يأتي دور تباعد كولباك ليبلر Kullback-Leibler Divergence.
الإنتروبيا الخاصة بتوزيعنا
تباعد KL يعود أصوله إلى نظرية المعلومات. الهدف الأساسي لنظرية المعلومات هو تحديد كمية المعلومات الموجودة في البيانات. يسمى المقياس الأكثر أهمية في نظرية المعلومات إنتروبي ، ويُشار إليه عادةً بالرمز H. تعريف إنتروبي للتوزيع الاحتمالي هو:
إذا استخدمنا log2 لحسابتنا يمكننا تفسير الإنتروبيا على أنها “الحد الأدنى لعدد البت (Bits) التي سنحتاجها لترميز معلوماتنا”. في هذه الحالة ، ستكون المعلومات هي كل ملاحظة لتعداد الأسنان نظرًا لتوزيعنا التجريبي. بالنظر إلى البيانات التي لاحظناها ، فإن توزيع الاحتمال لدينا له إنتروبيا من 3.12 بت. يخبرنا عدد البت عن الحد الأدنى لعدد البت التي سنحتاجها في المتوسط ، لترميز عدد الأسنان التي سنلاحظها في حالة واحدة.
ما لا تخبرنا به الإنتروبيا هو مخطط التشفير الأمثل لمساعدتنا على تحقيق هذا الضغط. يعد الترميز الأمثل للمعلومات موضوعًا مثيرًا للاهتمام للغاية ، ولكنه ليس ضروريًا لفهم تباعد كولباك ليبر. الشيء الرئيسي في الإنتروبيا هو أنه ، بمجرد معرفة الحد الأدنى النظري لعدد البت التي نحتاجها ، لدينا طريقة لتحديد كمية المعلومات بالضبط في بياناتنا. الآن بعد أن تمكنا من تحديد ذلك ، نريد تحديد مقدار المعلومات المفقودة عندما نستبدل توزيعنا المرصود بتقريب المعايير.
حساب كمية المعلومات المفقودة فقد باستخدام تباعد كولباك ليبر
تباعد كولباك ليبر هو مجرد تعديل طفيف لمعادلة الإنتروبيا لدينا. بدلاً من مجرد الحصول على احتمالية التوزيع p ، فإننا نضيف في التوزيع التقريبي q. ثم ننظر إلى اختلاف قيم اللوغارتيم لكل منها:
بشكل أساسي ، ما ننظر إليه مع تباعد كولباك ليبر هو توقع اختلاف قيم اللوغارتيم بين احتمالية البيانات في التوزيع الأصلي مع التوزيع التقريبي. مرة أخرى ، إذا فكرنا من حيث log2 يمكننا تفسير هذا على أنه “عدد أجزاء المعلومات التي نتوقع فقدها”. يمكننا إعادة كتابة صيغتنا من حيث التوقعات:
الطريقة الأكثر شيوعًا لرؤية اختلاف KL هي كما يلي:
حيث
تباعد كولباك ليبر ، يمكننا حساب مقدار المعلومات المفقودة بالضبط عندما نقترب من توزيع مع آخر. دعنا نعود إلى بياناتنا ونرى كيف تبدو النتائج.
مقارنة توزيعاتنا التقريبية
يمكننا الآن المضي قدمًا وحساب تباعد كولباك ليبر لتوزيعي التقريب. بالنسبة للتوزيع المنتظم نجد:
وللتقريب ذو الحدين:
كما يمكننا أن نرى المعلومات المفقودة باستخدام التقريب ذي الحدين أكبر من استخدام التقريب المنتظم. إذا كان علينا أن نختار واحدة لتمثيل ملاحظاتنا ، فمن الأفضل أن نتمسك بالتقريب المنتظم.
التباعد ليس المسافة
قد يكون من المغري التفكير في تباعد KL كمقياس للمسافة ، ولكن لا يمكننا استخدامه لقياس المسافة بين توزيعين. والسبب في ذلك هو أن تباعد كولباك ليبر غير متماثل (not symmetric) . على سبيل المثال ، إذا استخدمنا بياناتنا الملحوظة كوسيلة لتقريب التوزيع ذي الحدين ، نحصل على نتيجة مختلفة تمامًا:
$D_{k l}(\text { Binomial } \| \text { Observed })=0.330$
بديهيًا ، هذا منطقي لأنه في كل حالة ، نحن نقوم بالتقريب بشكل مختلف تمامًا.
التحسين باستخدام تباعد كولباك ليبر
عندما اخترنا قيمتنا للتوزيع ذي الحدين ، اخترنا معايير الإحتمال باستخدام القيمة المتوقعة التي تطابق بياناتنا. ولكن نظرًا لأننا نعمل على التحسين لتقليل فقدان المعلومات ، فمن المحتمل أن هذه لم تكن أفضل طريقة لاختيار المعايير. يمكننا التحقق من عملنا من خلال النظر في الطريقة التي يتغير بها تباعد كولباك ليبر أثناء تغيير قيمنا لهذه المعايير. فيما يلي مخطط يوضح كيفية تغير هذه القيم معًا:

اتضح أننا اخترنا النهج الصحيح للعثور على أفضل توزيع ذي الحدين لنمذجة بياناتنا
كما ترون ، كان تقديرنا للتوزيع ذي الحدين (النقطة السوداء) هو أفضل تقدير لتقليل تباعد كولباك ليبلر.
لنفترض أننا أردنا إنشاء توزيع مخصص لنمذجة بياناتنا. سنقسم البيانات إلى قسمين. احتمالات الأسنان 0-5 واحتمالات 6-10 أسنان. ثم سنستخدم معييار واحد لتحديد النسبة المئوية لإجمالي توزيع الاحتمال الذي يقع على الجانب الأيمن من التوزيع. على سبيل المثال ، إذا اخترنا 1 كقيمة للمعييار ، فسيكون لكل منها 6-10 احتمالات 0.2 وكل شيء في المجموعة 0-5 سيكون له احتمال 0. لذا بشكل أساسي:
ملاحظة: نظرًا لأن السجل غير معرّف لـ 0 ، فإن الوقت الوحيد الذي يمكننا فيه السماح باحتمالات صفرية هو عندما تكون
p (xi) = 0 مما يعني أن q(xi) =0
كيف يمكننا العثور على المعييار المثالي لهذا النموذج ؟ كل ما نحتاجه هو تقليل تباعد KL بالطريقة نفسها التي فعلناها من قبل:

من خلال إيجاد الحد الأدنى لـ KL Divergence أثناء تغيير معلمتنا ، يمكننا العثور على القيمة المثلى لـ p.
نجد أن الحد الأدنى لقيمة تباعد KL هو 0.338 عندما p = 0.47. يجب أن تبدو هذه القيمة للحد الأدنى من لتباعد KL مألوفة جدًا: إنها مطابقة تقريبًا للقيمة التي حصلنا عليها من التوزيع المنتظم ! عندما نرسم قيم توزيعنا المخصص مع القيمة المثالية لـ p نجد أنه تقريبًا منتظم:

نموذجنا المخصص ينتهي إلى أن يكون قريبًا جدًا من التوزيع المنتظم
نظرًا لأننا لا نحتفظ بأي معلومات باستخدام توزيعنا المخصص ، فسيكون من الأفضل استخدام نموذج أكثر دراية وأبسط.
النقطة الرئيسية هنا هي أنه يمكننا استخدام تباعد KL كدالة موضوعية للعثور على القيمة المثلى لأي توزيع تقريبي يمكننا التوصل إليه. في حين أن هذا المثال هو تحسين معييار واحد فقط ، يمكننا أن نتصور بسهولة توسيع هذا النهج ليشمل نماذج عالية الأبعاد مع العديد من المعايير.
الترميز التلقائي المتغير وأساليب بايز المتغيرة
إذا كنت على دراية بالشبكات العصبية ، فربما تكون قد خمنت إلى أين نتجه بعد القسم الأخير. الشبكات العصبية مما يعني أنه يمكنك استخدام شبكة عصبية لتعلم مجموعة واسعة من الوظائف المعقدة. المفتاح للحصول على الشبكات العصبية للتعلم هو استخدام دالة موضوعية يمكنها إعلام الشبكة بمدى أدائها. تقوم بتدريب الشبكات العصبية عن طريق تقليل خسارة الدالة الموضوعية.
كما رأينا ، يمكننا استخدام تباعد KL لتقليل مقدار فقدان المعلومات لدينا عند تقريب التوزيع. يتيح لنا الجمع بين تباعد KL والشبكات العصبية معرفة التوزيع التقريبي المعقد جدًا لبياناتنا. يُطلق على الطريقة الشائعة لذلك ” شبكات الترميز التلقائي المتغير ” التي تتعلم أفضل طريقة لتقريب المعلومات في مجموعة بيانات.
المراجع :
1- https://arxiv.org/abs/1404.2000
3- https://www.countbayesie.com/blog/2017/5/9/kullback-leibler-divergence-explained
إضافة تعليق