ما هو التعلم المعزز؟

التعلم المعزز هو حقل فرعي من تعلم الألة (machine learning) يعالج مشكلة التعلم التلقائي للقرارات المثلى مع بمرور الوقت. هذه مشكلة عامة وشائعة تمت دراستها في العديد من المجالات العلمية والهندسية.

ويقع في مكان ما بين الإشراف الكامل (full supervision) والافتقار التام للتسميات المحددة مسبقًا (predefined labels). من ناحية ، يستخدم العديد من الأساليب الراسخة في مجال التعلم تحت الإشراف ، مثل الشبكات العصبية العميقة لتقريب الوظائف ، والانتشار العكسي ، لتعلم تمثيل البيانات. من ناحية أخرى ، عادة ما يتم تطبيقها بطريقة مختلفة.

الفأر و المتاهة 

تخيل أن لديك وكيلًا (Agent) يحتاج إلى اتخاذ إجراءات في بعض البيئات. (سيتم تعريف كل من “الوكيل” و “البيئة” بالتفصيل لاحقًا في هذا المقال.) يعد الفأر الآلي في المتاهة مثالًا جيدًا .

عالم متاهة الفأر الألي

في هذه الحالة ، تكون البيئة هي المتاهة و تحتوي على الطعام في بعض النقاط والكهرباء في نقاط أخرى. يمكن للفأر  اتخاذ إجراءات ، مثل الانعطاف إلى اليسار / اليمين والمضي قدمًا.

 في كل لحظة ، يمكنه مراقبة الحالة الكاملة للمتاهة لاتخاذ قرار بشأن الإجراءات التي يجب اتخاذها. يحاول الفأر الآلي العثور على أكبر قدر ممكن من الطعام مع تجنب التعرض لصدمة كهربائية كلما أمكن ذلك.

 تعتبر إشارات الطعام والكهرباء هذه بمثابة المكافأة التي تُمنح للوكيل (الفأر) من البيئة كتغذية رجعية إضافية حول تصرفات الوكيل. تعتبر المكافأة مفهومًا مهمًا جدًا في التعليم المعزز. 

في الوقت الحالي ، يكفي أن تعرف أن الهدف النهائي للوكيل هو الحصول على أكبر قدر ممكن من المكافأة الإجمالية. في مثالنا الخاص ، يمكن أن يعاني الفأر الآلي من صدمة كهربائية طفيفة للوصول إلى مكان به الكثير من الطعام – ستكون هذه نتيجة أفضل للفأر من مجرد الوقوف دون حراك ولا يكسب شيئًا.

نحن لا نرغب في برمجة المعرفة حول البيئة وأفضل الإجراءات التي يجب اتخاذها في كل موقف محدد بالنسبة للفأر الآلي – سوف يتطلب الأمر الكثير من الجهد وقد يصبح عديم الفائدة حتى مع تغيير بسيط في المتاهة.

 ما نريده هو أن يكون لدينا مجموعة سحرية من الأساليب التي تسمح للفأر الخاص بنا  أن يتعلم من تلقاء نفسه كيفية تجنب الكهرباء وجمع أكبر قدر ممكن من الطعام. 

التعلم المعزز هو بالضبط صندوق الأدوات السحري هذا ويتصرف بشكل مختلف عن أساليب التعلم الخاضعة للإشراف وغير الخاضعة للإشراف ؛ لا يعمل مع تسميات محددة مسبقًا بالطريقة التي يعمل بها التعلم الخاضع للإشراف. لا أحد يصنف كل الصور التي يراها الروبوت على أنها جيدة أو سيئة ، أو يعطيها أفضل اتجاه لتسليمها.

ومع ذلك ، نحن لسنا مكفوفين تمامًا كما هو الحال في إعداد التعلم غير الخاضع للإشراف – لدينا نظام مكافأة. يمكن أن تكون المكافأة إيجابية من جمع الطعام ، أو سلبية من الصدمات الكهربائية ، أو محايدة عندما لا يحدث شيء خاص. من خلال مراقبة المكافأة وربطها بالإجراءات المتخذة ، يتعلم وكيلنا كيفية القيام بعمل ما بشكل أفضل ، وجمع المزيد من الطعام ، والحصول على صدمات كهربائية أقل. بالطبع ، عمومية  التعلم المعزز والمرونة لها ثمن. يعتبر التعلم المعزز مجالًا أكثر تحديًا من التعلم الخاضع للإشراف أو غير الخاضع للإشراف. دعنا نناقش بسرعة ما يجعله صعبًا.

تعقيدات التعلم المعزز

أول شيء يجب الإنتباه له هو أن الملاحظة (observation ) في التعلم المعزز تعتمد على سلوك الوكيل ، وإلى حد ما ، هي نتيجة لهذا السلوك. إذا قرر الوكيل القيام بأشياء غير فعالة ، فلن تخبرك الملاحظات بأي شيء عن الخطأ الذي ارتكبه وما يجب فعله لتحسين النتيجة (سيحصل الوكيل على ردود فعل سلبية طوال الوقت). إذا كان الوكيل عنيدًا واستمر في ارتكاب الأخطاء ، فإن الملاحظات ستعطي انطباعًا خاطئًا بأنه لا توجد طريقة للحصول على مكافأة أكبر – الحياة معاناة – والتي قد تكون خاطئة تمامًا.

بمصطلحات تعلم الألة، يمكن إعادة صياغة هذا على  أنها بيانات غيرة مستقلة و غير موزعة بشكل مماثل (non independent and identically distributed) أو (non-i.i.d).

الأمر الثاني الذي يعقد حياة وكيلنا هو أنه لا يحتاج فقط إلى استغلال المعرفة التي تعلمها ، بل يحتاج أيضًا إلى استكشاف البيئة بنشاط ، لأنه ربما يؤدي القيام بالأشياء بشكل مختلف إلى تحسين النتيجة بشكل كبير.

 تكمن المشكلة في أن الكثير من الاستكشاف قد يؤدي أيضًا إلى تقليل المكافأة بشكل خطير (ناهيك عن أن الوكيل يمكن أن ينسى بالفعل ما تعلمه من قبل) ، لذلك نحن بحاجة إلى إيجاد توازن بين هذين النشاطين بطريقة ما.

 معضلة الاستكشاف / الاستغلال هذه هي إحدى الأسئلة الأساسية المفتوحة في التعلم المعزز. يواجه الناس هذا الاختيار طوال الوقت – هل يجب أن أذهب إلى مكان معروف بالفعل لتناول العشاء أم أجرب هذا المطعم الجديد الفاخر؟ كم مرة يجب علي تغيير الوظائف؟ هل يجب علي دراسة مجال جديد أو مواصلة العمل في مجالي لا توجد إجابات عالمية لهذه الأسئلة.

يكمن عامل التعقيد الثالث في حقيقة أن المكافأة يمكن أن تتأخر بشكل خطير بعد الأفعال. في لعبة الشطرنج ، على سبيل المثال ، يمكن لحركة واحدة قوية في منتصف اللعبة أن تغير التوازن. أثناء التعلم ، نحتاج إلى اكتشاف مثل هذه الأمور، والتي قد يكون من الصعب تمييزها أثناء تدفق الوقت وأفعالنا.

ومع ذلك ، على الرغم من كل هذه العقبات والتعقيدات ، شهد التعلم المعزز تحسينات هائلة في السنوات الأخيرة وأصبحت أكثر نشاطًا كمجال للبحث والتطبيق العملي.

أساسيات التعلم المعزز

هناك العديد من الأمثلة التاريخية للاختراقات العملية والنظرية التي حدثت عندما حاول شخص ما تحدي القواعد بطريقة إبداعية. ومع ذلك ، يجب علينا أيضًا أن نفهم حدودنا. من المهم معرفة وفهم قواعد اللعبة لمختلف الأساليب ، حيث يمكن أن يوفر لك الكثير من الوقت مقدمًا. 

يُظهر الرسم البياني التالي كيانين رئيسيين في التعلم المعزز- الوكيل والبيئة – وقنوات الاتصال الخاصة بهما – الإجراءات والمكافآت والملاحظات. 

كيانات التعلم المعزز

جائزة او مكافاة

دعنا نعود إلى فكرة المكافأة. في  التعلم المعزز ، إنها مجرد قيمة عددية نحصل عليها بشكل دوري من البيئة. كما ذكرنا ، يمكن أن تكون المكافأة إيجابية أو سلبية ، كبيرة أو صغيرة ، لكنها مجرد رقم. الغرض من المكافأة هو إخبار وكيلنا بمدى حسن تصرفه. لا نحدد عدد المرات التي يتلقى فيها الوكيل هذه المكافأة ؛ يمكن أن تكون كل ثانية أو مرة واحدة في عمر الوكيل ، على الرغم من أنه من الشائع تلقي المكافآت في كل طابع زمني ثابت أو في كل تفاعل بيئي. في حالة أنظمة المكافآت التي لا تتكرر إلا مرة واحدة في العمر ، فإن جميع المكافآت باستثناء آخرها ستكون صفرًا.

كما ذكرت ، الغرض من المكافأة هو إعطاء ملاحظات للوكيل حول نجاحه ، وهو أمر أساسي في  التعلم المعزز. في الأساس ، يأتي مصطلح التعزيز من حقيقة أن المكافأة التي يحصل عليها الوكيل يجب أن تعزز سلوكه بطريقة إيجابية أو سلبية. المكافأة محلية ، بمعنى أنها تعكس نجاح نشاط الوكيل الأخير وليس كل النجاحات التي حققها الوكيل حتى الآن.

 بالطبع ، الحصول على مكافأة كبيرة مقابل بعض الإجراءات لا يعني أنك لن تواجه عواقب وخيمة بعد ثانية واحدة بعد قراراتك السابقة. إنها مثل سرقة بنك – قد تبدو فكرة جيدة حتى تفكر في العواقب.

ما يحاول الوكيل تحقيقه هو أكبر مكافأة متراكمة على تسلسل أفعاله. لمنحك فهمًا أفضل للمكافأة ، إليك قائمة ببعض الأمثلة الملموسة مع مكافآتهم:

  • التداول المالي: مقدار الربح هو مكافأة للمتداول الذي يشتري الأسهم ويبيعها.
  • الشطرنج: يتم الحصول على المكافأة في نهاية اللعبة كفوز أو خسارة أو تعادل. بالطبع ، الأمر متروك للتفسير. بالنسبة لي ، على سبيل المثال ، فإن تحقيق التعادل في مباراة ضد خبير شطرنج سيكون بمثابة مكافأة كبيرة. من الناحية العملية ، نحتاج إلى تحديد قيمة المكافأة بدقة ، لكنها قد تكون تعبيرًا معقدًا إلى حد ما. على سبيل المثال ، في حالة الشطرنج ، يمكن أن تكون المكافأة متناسبة مع قوة الخصم.
  • نظام الدوبامين في الدماغ: هناك جزء من الدماغ (الجهاز الحوفي) ينتج الدوبامين في كل مرة يحتاج فيها إلى إرسال إشارة إيجابية إلى باقي الدماغ. تؤدي التركيزات العالية من الدوبامين إلى الشعور بالمتعة ، مما يعزز الأنشطة التي يعتبرها هذا النظام جيدة.
  • ألعاب الكمبيوتر: عادةً ما تقدم ملاحظات واضحة للاعب ، وهي إما عدد الأعداء الذين قتلوا أو النتيجة التي تم جمعها. لاحظ في هذا المثال أن المكافأة قد تراكمت بالفعل ، لذا يجب أن تكون مكافأة  التعلم المعزز لألعاب الأركيد مشتقة من النتيجة ، أي +1 في كل مرة يُقتل فيها عدو جديد و 0 في جميع الخطوات الزمنية الأخرى.
  • التنقل عبر الويب: توجد مشكلات ذات قيمة عملية عالية تتطلب الاستخراج الآلي للمعلومات المتاحة على الويب. تحاول محركات البحث حل هذه المهمة بشكل عام ، ولكن في بعض الأحيان ، للوصول إلى البيانات التي تبحث عنها ، تحتاج إلى ملء بعض النماذج أو التنقل عبر سلسلة من الروابط ، أو إكمال اختبارات CAPTCHA ، والتي قد يكون من الصعب لمحركات البحث للقيام بها. هناك نهج قائم على  التعلم المعزز لتلك المهام حيث تكون المكافأة هي المعلومات أو النتيجة التي تحتاج إلى الحصول عليها.
  • بحث معمارية الشبكة العصبية (NN): تم تطبيق  التعلم المعزز بنجاح على مجال تحسين معمارية الشبكات العصبية ، حيث الهدف هو الحصول على أفضل مقياس أداء في بعض مجموعات البيانات عن طريق تعديل عدد الطبقات أو معاييرها، وإضافة اتصالات تجاوز إضافية ، أو إجراء تغييرات أخرى على بنية NN. المكافأة في هذه الحالة هي الأداء (الدقة أو مقياس آخر يوضح مدى دقة تنبؤات NN).
  • علامات المدرسة: لدينا جميعًا خبرة هنا! العلامات المدرسية هي نظام مكافأة مصمم لإعطاء الطلاب ملاحظات حول دراستهم.

كما ترى من الأمثلة السابقة ، فإن فكرة المكافأة عامة جدًا وهي دلالة على أداء الوكيل ، ويمكن العثور عليه أو حقنه بشكل مصطنع في الكثير من المشاكل العملية من حولنا.

الوكيل

الوكيل هو شخص أو شيء يتفاعل مع البيئة من خلال تنفيذ إجراءات معينة ، وإجراء الملاحظات ، والحصول على مكافآت في نهاية المطاف مقابل ذلك. في معظم سيناريوهات  التعلم المعزز العملية ، يكون الوكيل هو برنامجنا الذي من المفترض أن يحل بعض المشكلات بطريقة أكثر أو أقل كفاءة. بالنسبة لمجموعتنا الأولية المكونة من ستة أمثلة ، سيكون الوكلاء على النحو التالي:

  • التداول المالي: نظام تداول أو متداول يتخذ قرارات بشأن تنفيذ الأوامر
  • الشطرنج: لاعب أو برنامج حاسوبي
  • نظام الدوبامين: الدماغ نفسه ، والذي ، وفقًا للبيانات الحسية ، يقرر ما إذا كانت تجربة جيدة
  • ألعاب الكمبيوتر: اللاعب الذي يستمتع باللعبة أو ببرنامج الكمبيوتر. (غرد أندريه كارباثي ذات مرة قائلاً: “كان من المفترض أن نجعل الذكاء الاصطناعي يقوم بكل العمل ونلعب الألعاب ولكننا نقوم بكل العمل والذكاء الاصطناعي يلعب الألعاب!”)
  • التنقل عبر الويب: البرنامج الذي يخبر المتصفح بالرابط الذي يجب النقر عليه ، أو مكان تحريك الماوس ، أو النص الذي يجب إدخاله
  • البحث عن معمارية الشبكات العصبية: البرنامج الذي يتحكم في المعمارية الملموسة للشبكة العصبية قيد التقييم
  • المدرسة: طالب / تلميذ

البيئة

البيئة هي كل شيء خارج الوكيل. بالمعنى الأكثر عمومية ، إنها بقية الكون .يقتصر اتصال الوكيل بالبيئة على المكافأة (التي يتم الحصول عليها من البيئة) ، والإجراءات (التي ينفذها الوكيل وتُمنح للبيئة) ، والملاحظات (بعض المعلومات إلى جانب المكافأة التي يحصل عليها الوكيل من البيئة). 

الإجراءات

الإجراءات هي الأشياء التي يمكن أن يقوم بها الوكيل في البيئة. يمكن أن تكون الإجراءات ، على سبيل المثال ، حركات مسموح بها بموجب قواعد اللعب (إذا كانت لعبة) ، أو القيام بواجب منزلي (في حالة المدرسة). يمكن أن تكون بسيطة مثل التحرك حركة واحدة للأمام أو معقدة مثل ملء نموذج الضريبة لصباح الغد.

في  التعلم المعزز ، نميز بين نوعين من الأفعال – منفصل أو مستمر.

  •  تشكل الإجراءات المنفصلة مجموعة محدودة من الأشياء المتنافية التي يمكن للوكيل القيام بها ، مثل التحرك إلى اليسار أو اليمين. 
  • الإجراءات المستمرة لها بعض القيمة المرتبطة بها ، مثل وكيل السيارة الذي يدير العجلة بزاوية واتجاه التوجيه. يمكن أن تؤدي الزوايا المختلفة إلى سيناريو مختلف بعد ثانية ، لذا فإن مجرد تدوير العجلة لا يكفي بالتأكيد.

ملاحظات

تشكل ملاحظات البيئة قناة المعلومات الثانية للوكيل ، حيث يكون الأول هو المكافأة. قد تتساءل لماذا نحتاج إلى مصدر بيانات منفصل. الجواب هو الراحة. الملاحظات هي أجزاء من المعلومات التي توفرها البيئة للوكيل والتي تقول ما يحدث حول الوكيل.

قد تكون الملاحظات ذات صلة بالمكافأة القادمة (مثل رؤية إشعار مصرفي حول الدفع) أو قد لا تكون كذلك. يمكن أن تتضمن الملاحظات أيضًا معلومات المكافأة في شكل غامض، مثل أرقام النقاط على شاشة لعبة الكمبيوتر. أرقام النقاط هي مجرد بكسلات ، ولكن من المحتمل أن نتمكن من تحويلها إلى قيم مكافأة.

من ناحية أخرى ، لا ينبغي اعتبار المكافأة شيئًا ثانويًا أو غير مهم – المكافأة هي القوة الرئيسية التي تحرك عملية تعلم الوكيل. إذا كانت المكافأة خاطئة أو صاخبة أو بعيدة قليلاً عن الهدف الأساسي ، فهناك احتمال أن يسير التدريب في الاتجاه الخاطئ.

من المهم أيضًا التمييز بين حالة البيئة والملاحظات. من المحتمل أن تتضمن حالة البيئة كل ذرة في الكون ، مما يجعل من المستحيل قياس كل شيء عن البيئة. حتى إذا حددنا حالة البيئة لتكون صغيرة بما يكفي ، في معظم الأوقات ، لن يكون من الممكن الحصول على معلومات كاملة عنها أو أن قياساتنا ستحتوي على ضوضاء. قد تم إنشاء  التعلم المعزز لدعم مثل هذه الحالات محليًا. مرة أخرى ، دعنا نعود إلى مجموعة الأمثلة الخاصة بنا لمعرفة الفرق:

  • التداول المالي: البيئة هنا هي السوق المالي بأكمله وكل ما يؤثر فيه. هذه قائمة ضخمة من الأشياء ، مثل آخر الأخبار ، والظروف الاقتصادية والسياسية ، والطقس ، والإمدادات الغذائية ، واتجاهات Twitter. حتى قرارك بالبقاء في المنزل اليوم يمكن أن يؤثر بشكل غير مباشر على النظام المالي العالمي (إذا كنت تؤمن بـ “تأثير الفراشة”). ومع ذلك ، تقتصر ملاحظاتنا على أسعار الأسهم والأخبار وما إلى ذلك. لا يمكننا الوصول إلى معظم حالة البيئة ، مما يجعل التجارة شيئًا غير بديهي.
  • الشطرنج: البيئة هنا هي لوحتك بالإضافة إلى خصمك ، والتي تتضمن مهاراتهم في الشطرنج ، والمزاج ، وحالة الدماغ ، والتكتيكات المختارة ، وما إلى ذلك. الملاحظات ما ترى (وضعك الحالي في لعبة الشطرنج) ، ولكن في بعض مستويات اللعب ، قد تزيد المعرفة بعلم النفس والقدرة على قراءة مزاج الخصم من فرصك.
  • نظام الدوبامين: البيئة هنا هي عقلك بالإضافة إلى جهازك العصبي وحالات أعضائك بالإضافة إلى العالم بأسره الذي يمكنك إدراكه. الملاحظات هي حالة الدماغ الداخلية والإشارات القادمة من حواسك.
  • لعبة الكمبيوتر: هنا ، البيئة هي حالة جهاز الكمبيوتر الخاص بك ، بما في ذلك جميع بيانات الذاكرة والقرص. بالنسبة للألعاب المتصلة بالشبكة ، تحتاج إلى تضمين أجهزة كمبيوتر أخرى بالإضافة إلى جميع البنية التحتية للإنترنت بينها وبين جهازك. الملاحظات هي بكسلات الشاشة والصوت فقط. 
  • التنقل عبر الويب: البيئة هنا هي الإنترنت ، بما في ذلك جميع البنية التحتية للشبكة بين الكمبيوتر الذي يعمل عليه وكيلنا وخادم الويب ، وهو نظام ضخم حقًا يتضمن الملايين والملايين من المكونات المختلفة. عادة ما تكون الملاحظة هي صفحة الويب التي يتم تحميلها في خطوة التنقل الحالية.
  • بحث معمارية الشبكة العصبية: في هذا المثال ، تكون البيئة بسيطة إلى حد ما وتتضمن مجموعة أدوات الشبكات العصبية التي تقوم بإجراء تقييم الشبكة العصبية المحدد ومجموعة البيانات المستخدمة للحصول على مقياس الأداء. بالمقارنة مع الإنترنت ، تبدو هذه بيئة لعبة صغيرة.قد تكون الملاحظات مختلفة وتتضمن بعض المعلومات حول الاختبار ، مثل ديناميكيات تقارب الخسارة أو المقاييس الأخرى التي تم الحصول عليها من خطوة التقييم.
  • المدرسة: البيئة هنا هي المدرسة نفسها ، ونظام التعليم للبلد ، والمجتمع ، والإرث الثقافي. الملاحظات هي حواس الطالب وذاكرته.

ستلاحظ بالفعل أن نموذج  التعلم المعزز مرن للغاية وعام ، ويمكن تطبيقه على مجموعة متنوعة من السيناريوهات. دعنا الآن نلقي نظرة على كيفية ارتباط  التعلم المعزز بالتخصصات الأخرى ، قبل الغوص في تفاصيل نموذج  التعلم المعزز.

المجالات المختلفة في  التعلم المعزز

هناك العديد من المجالات الأخرى التي تساهم في  التعلم المعزز أو تتعلق بها. يتم عرض أهمها في الرسم البياني التالي ، والذي يتضمن ستة مجالات كبيرة متداخلة بشكل كبير مع بعضها البعض حول الأساليب والموضوعات المحددة المتعلقة باتخاذ القرار (تظهر داخل الدائرة الرمادية الداخلية).

مجالات مختلفة في التعلم المعزز

عند تقاطع كل تلك المجالات العلمية ذات الصلة ، ولكن لا تزال مختلفة ، يقع  التعلم المعزز ، وهو عام ومرن للغاية بحيث يمكن الحصول على أفضل المعلومات المتاحة من هذه المجالات المتنوعة:

  • تعلم الألة :  التعلم المعزز ، باعتباره حقلاً فرعياً من تعلم الألة، يستعير الكثير من آلياته وحيله وتقنياته من تعلم الألة. في الأساس ، الهدف من  التعلم المعزز هو معرفة كيف يجب أن يتصرف العامل عندما يتم إعطاؤه بيانات رصد غير كاملة.
  • الهندسة (خاصة التحكم الأمثل): يساعد ذلك في اتخاذ سلسلة من الإجراءات المثلى للحصول على أفضل نتيجة.
  • علم الأعصاب: استخدمنا نظام الدوبامين كمثال لنا ، وقد ثبت أن الدماغ البشري يعمل بشكل مشابه لنموذج  التعلم المعزز.
  • علم النفس: يدرس هذا السلوك في ظروف مختلفة ، مثل كيف يتفاعل الناس ويتكيفون ، وهو قريب من موضوع  التعلم المعزز.
  • الاقتصاد: أحد الموضوعات المهمة هو كيفية تعظيم المكافأة من حيث المعرفة غير الكاملة والظروف المتغيرة للعالم الحقيقي.
  • الرياضيات: تعمل مع أنظمة مثالية وتكرس أيضًا اهتمامًا كبيرًا لإيجاد والوصول إلى الظروف المثلى في مجال أبحاث العمليات.

إضافة تعليق