مقدمة في السببية

تحدثنا في المقال السابق عن تفكيك عملية إتخاذ القرارات بشكل عام و قبل التعمق في كل مرحلة من مراحل التفكك الثلاث و طريقة الربط بينها من المهم ، مع ذلك ، أن نتوقف الآن ونعترف بأن هذا التعيين يتم بوساطة قوى السببية.

هناك قول معروف و هو أن “الارتباط لا يعني السببية” ، بغض النظر عن عدد المرات التي سمعناه فيه، لا يزال من الشائع جدًا الخلط بين المصطلحين. 

تعريف الارتباط والسببية

بالمعنى الدقيق للكلمة ، الارتباط هو وجود أو عدم وجود أي تبعيات خطية في متغيرين أو أكثر. بشكل أقل رسمية ، هناك متغيرين مرتبطين إذا كانا يميلون إلى “التحرك معًا”.

من الصعب تعريف السببية ، لذلك دعونا نأخذ الاختصار الذي يتبعه الجميع تقريبًا: العلاقة السببية هي علاقة السبب والنتيجة. X (جزئيًا) يسبب Y إذا كان Y (جزئيًا) نتيجة لـ X. يتم استخدام المؤهل “الجزئي” لأنه نادرًا ما يكون أحد العوامل هو المصدر الفريد للعلاقة.

يمكن للمرء أيضًا تعريف السببية من حيث الوقائع المضادة: لو لم يحدث X ، فهل  سيتم ملاحظة Y ؟ إذا كانت الإجابة إيجابية ، فمن غير المرجح أن تكون هناك علاقة سببية من X إلى Y. مرة أخرى ، يعتبر المصطلح “غير مرجح” مهمًا ويتعلق بالمؤهل “الجزئي” السابق: توجد علاقات سببية تحدث فقط في حالة وجود المجموعة الصحيحة من الشروط.

بعض الصعوبات في تقدير الآثار السببية

يعد تقدير التأثير السببي على نتيجة  Y لسحب الرافعة X إلى Y  أمرًا بالغ الأهمية لأننا نحاول هندسة اتخاذ القرار الأمثل. التشبيه ليس صدفة: مثل المهندس الذي يجب أن يفهم قوانين الفيزياء لبناء ناطحات سحاب أو جسور أو سيارات أو طائرات ، يجب أن يكون لدى قادة التحليل اليوم مستوى معين من الفهم للقوانين السببية التي تتوسط أفعالنا وأفعالهم و عواقب اتخاذ أفضل القرارات الممكنة. وهذا شيء يجب على البشر القيام به ؛ سيساعدنا الذكاء الاصطناعي لاحقًا في عملية صنع القرار ، لكن يجب علينا أولاً التغلب على العقبات السببية.

المشكلة الأولى: لا يمكننا ملاحظة الحقائق المجهولة

هناك العديد من المشكلات التي تجعل تعرفنا على الآثار السببية صعب للغاية. الأول هو أننا نلاحظ الحقائق فقط ، لذلك يجب أن نتخيل سيناريوهات بديلة للواقع. إن من أهم المهارات التي يجب على المفكرين التحليليين تطويرها هو التشكيك في التفسير الأولي للنتائج التجريبية ، والتوصل إلى بدائل غير واقعية ليتم اختبارها. هل ستكون العواقب مختلفة لو استخدمنا أدوات مختلفة ، أو نفس الرافعات ولكن في ظل ظروف مختلفة؟

دعونا نتوقف بإيجاز لمناقشة ما ينطوي عليه هذا السؤال. لنفترض أننا نريد زيادة تحويل العملاء المحتملين في حملات التسويق عبر الهاتف الخاصة بنا. يقترح مدثر، وهو محلل مبتدئ أخذ مادة واحدة  في الكلية حول التحليل النفسي الفرويدي ، أن لو ممثلي مركز الإتصال كانو إناث سيكون لديهن معدلات تحويل أعلى للزبائن ، لذلك قررت الشركة أن تجعل مجموعتها القادرة جدًا من الممثلين الإناث تقوم بجميع المكالمات الصادرة ليوم واحد. في اليوم التالي ، اجتمعوا لمراجعة النتائج: انتقل تحويل العملاء المحتملين من 5٪ إلى 8.3٪. يبدو أن فرويد كان محقًا ، أو أفضل من ذلك ، أن قرار مدثر،بأخذ تلك المادة قد ثبت أخيرًا أنه صحيح. أم هو كذلك؟

للحصول على الإجابة الصحيحة ، نحتاج إلى تخيل عميل يتلقى مكالمة واحدة من ممثلة أنثى في عالم واحد ، والمكالمة نفسها بالضبط من ممثل ذكر في عالم موازٍ.

نفس العميل  و نفس التوقيت و نفس المزاج  و نفس الرسالة  ؛ كل شيء هو نفسه في السيناريوهين: نحن فقط نغير نبرة الصوت من ذكر إلى أنثى. وغني عن القول ، إن تطبيق مثل هذا الواقع المضاد يبدو مستحيلًا. لكنيمكننا محاكاة هذه الوقائع المستحيلة من خلال تجارب عشوائية مصممة جيدًا أو اختبارات A / B.

المشكلة الثانية: عدم التجانس

المشكلة الثانية هي عدم التجانس (heterogeneity) . يختلف البشر جوهريًا ، كل واحد منهم هو نتاج كل من التركيب الجيني وخبرات الحياة ، مما يخلق وجهات نظر وسلوكيات فريدة للعالم. مهمتنا ليست فقط تقدير كيفية تغير السلوك عندما نختار سحب رافعة معينة – التأثير السببي – ولكن يجب علينا أيضًا الاهتمام بحقيقة أن العملاء المختلفين يتفاعلون بشكل مختلف. المؤثر الذي يوصي بمنتجنا سيكون له تأثيرات مختلفة عليك وعلى نفسي: قد أكون الآن على استعداد لتجربته ، بينما قد تختار البقاء مخلصًا لعلامتك التجارية المفضلة. كيف يمكننا حتى قياس التأثيرات غير المتجانسة؟

يوضح الشكل التالي منحنى الجرس الشهير ، والتوزيع الطبيعي .

أنا أستخدمه هنا لتمثيل الاختلاف الطبيعي الذي قد نواجهه عند تحليل استجابة عملائنا عندما يوصي المؤثر لدينا بمنتجنا. سيقبل بعض متابعية، الإشارة ويتفاعلون بشكل إيجابي – يتم تمثيله كإجراء في النصف الأيمن للخط المتقطع الرأسي ، ومتوسط ​​الاستجابة عبر جميع المتابعين ، وأتباع المتابعين ، وما إلى ذلك. لن يكون لدى البعض أي رد فعل على الإطلاق ، وقد يتفاعل البعض بشكل سلبي – وهذا هو جمال السلوك البشري ؛ نحصل أحيانًا على مجموعة كاملة من الإجراءات وردود الفعل المحتملة. شكل التوزيع له آثار مهمة ، وفي الواقع ، قد لا تكون استجاباتنا متماثلة ؛ قد يكون لدينا ذيول أيسر أو أيمن أطول وقد تنحرف ردود الفعل نحو الإيجابية أو السلبية. الشيء المهم هنا هو أن الناس  تتفاعل بشكل مختلف ، مما يجعل الأمور أكثر صعوبة بالنسبة لنا عندما نحاول تقدير التأثير السببي.

الطريقة التي نتعامل بها عادةً مع عدم التجانس هي الاستغناء عنها عن طريق تقدير استجابة فريدة ، عادةً ما يتم تقديمها بواسطة المتوسط ​​أو التوسط ​​(الخط العمودي في الشكل السابق). ومع ذلك ، فإن المتوسط ​​حساس للغاية للملاحظات المتطرفة ، لذلك قد نستبدلها أحيانًا بالتوسط ​​، الذي له خاصية أن 50٪ من الردود أقل (إلى اليسار) و 50٪ أعلى (إلى اليمين) ؛ مع التوزيعات على شكل جرس ، يكون المتوسط ​​والوسيط متماثلين بشكل ملائم.

المشكلة الثالثة: الإرباك (confounder)

عند البحث عن العلاقات السببية ، من الشائع جدًا البدء بتخطيط مخططات مبعثرة مثل تلك الموجودة في الشكل أدناه حيث تشير كل علامة إلى زوج من الملاحظات (x,y).

قد تميل إلى التأكيد على أنه في هذه الحالة يوجد دليل واضح على أن X تسبب Y أو العكس صحيح – من الشائع تفسير مخططات التشتت على أنها علاقات بين المتغير في المحور الأفقي و النتائج على المحور الرأسي – ولكن كما يوضح المثال أدناه ، هذا التفسير خاطئ:

مثال 2-1. محاكاة تأثير متغير ثالث غير محسوب على ارتباط المتغيرين الآخرين

من المؤكد أن المتغير الثالث يؤثر بشكل إيجابي على كلاهما ويخلق هذا الارتباط الزائف. إذا تمكنا من التحكم في هذا المتغير الثالث (المعروف أيضًا باسم الإرتباك (confounder)) ، فقد نتمكن من الحصول على فهم أفضل للعلاقة الصافية بين متغيري الاهتمام.

ضع في اعتبارك الأمثلة الموضحة في الشكل أدناه .

 ترسم اللوحة العلوية اليسرى مقياسًا لانبعاثات ثاني أكسيد الكربون العالمية ونصيب الفرد الحقيقي من الناتج المحلي الإجمالي في المكسيك للفترة من 1900 إلى 2016. توضح اللوحة اليمنى العلوية عدد حالات الطلاق في ويلز وإنجلترا مقابل الناتج المحلي الإجمالي المكسيكي لعام 1900-2014. ترسم اللوحة السفلية السلاسل الزمنية الثلاث ، مفهرسة بحيث تكون ملاحظة عام 1900 هي 100.3

إذا فحصنا للتو مخططات التشتت ، فسنميل إلى استنتاج أن الانبعاثات العالمية وحالات الطلاق في المملكة المتحدة مرتبطة بشكل ما بالنمو الاقتصادي في المكسيك. ومع ذلك ، في هذه الحالة ، يكون المتغير الثالث مسؤولاً عن مثل هذا الارتباط الزائف: يسمي الإحصائيون وعلماء الاقتصاد القياسي التوجهات الزمنية (time trend)  بمعدل النمو الطبيعي لمتغير عند رسمه مقابل الوقت. توضح اللوحة السفلية أن معدلات النمو هذه كانت متشابهة جدًا عبر المتغيرات الثلاثة في فترات زمنية محددة.

بمجرد تحديد المسبب للارتباك ، يمكننا فقط التحكم فيه في خوارزمياتنا التنبؤية . لكن مشكلة العثور على الإرباكات بعيدة كل البعد عن أن تكون مباشرة ، لذا يجب أن نقوم بهذه المهمة (وبالتالي لا يمكن أتمتها بسهولة).

المشكلة الرابعة: تأثيرات الاختيار

مشكلة أخيرة هي انتشار تأثيرات الاختيار. ينشأ هذا عادةً لأننا نختار شرائح العملاء التي نريد العمل وفقًا لها ، أو لأن العملاء يختارون أنفسهم بأنفسهم ، أو كلاهما. من النتائج المهمة للاستدلال السببي أنه إذا كنا نرغب في تقدير التأثير السببي من العلاج من خلال مقارنة متوسط ​​النتائج لمجموعتين ، فنحن بحاجة إلى إيجاد طريقة للقضاء على تحيز الاختيار.

تحيزات الانتقاء والتأثيرات المسببة

بسبب التحيز في الاختيار ، قد نبالغ أو نقلل  في تقدير التأثير السببي عندما نأخذ فقط الفرق في متوسط ​​النتائج عبر المجموعات المعالجة والمجموعات الضابطة. مذكور كمعادلة:

الفروقات الملاحظة في المتوسط (mean) = التاثير السببي + الإنحياز الإختياري 

من الممارسات المعتادة رسم متوسط ​​النتائج كما في اللوحة العلوية للشكل أدناه.

في هذه الحالة ، تكون نتيجة عنصر المراقية 0.29 وحدة (دعنا نقول مئات الدولارات) أعلى من تلك التي تعرضت لأفعالنا أو الرافعة (العلاج) . هذا الرقم يتوافق مع الجانب الأيمن من المعادلة السابقة. تظهر اللوحة السفلية التوزيعات المقابلة للنتائج. يعد استخدام المتوسط (mean ) لحساب الاختلافات ممارسة قياسية ، ولكن من المفيد تذكر أن هناك مجموعة كاملة من الاستجابات ، وفي بعض الحالات مع تداخل واضح بين المجموعتين: تعرض المناطق المظللة ردود العملاء في المجموعتين لا يمكن تمييزها عن بعضها البعض.

اعلى أي حال ، فإن الاختلاف في النتائج المرصودة (الجانب الأيسر) لا يكفي بالنسبة لنا لأننا نعلم بالفعل أنه من المحتمل أن يكون متحيزًا من خلال تأثيرات الاختيار ؛ نظرًا لأن مصلحتنا هي تقدير التأثير السببي ، فيجب علينا إذن ابتكار طريقة لإلغاء هذا التأثير المنتشر.

الإحصائيون وعلماء الاقتصاد القياسي ، ناهيك عن الفلاسفة والعلماء ، كانوا يفكرون في هذه المشكلة منذ قرون. نظرًا لأنه من المستحيل فعليًا الحصول على نسخة دقيقة من كل عميل من عملائنا ، فهل هناك طريقة لتعيين علاجاتنا والتحايل على تحيز الاختيار؟ كان رونالد أ. فيشر ، عالم الإحصاء والعالم الشهير في القرن العشرين ، هو من وضع أسس ثابتة لأطريقة التجريب ، وهي الطريقة الأكثر انتشارًا بين الممارسين عندما نريد تقدير الآثار السببية. الفكرة بسيطة بما يكفي لوصفها دون استخدام المصطلحات التقنية.

اختبار A / B

في الصناعة ، من المعتاد تمامًا التخلص من تأثيرات الاختيار عن طريق إجراء اختبارات A / B ، وتقوم معظم الشركات التي تعتمد على البيانات بإجراء آلاف من هذه التجارب كل عام للعثور على تقديرات سببية تدفعهم إلى اتخاذ القرار.

سأقدم فقط وصفًا سطحيًا جدًا للتقنية هنا. هدفنا هو تقدير التأثير السببي لسحب رافعة  X على بعض مقاييس الإخراج Y. لنفترض أننا نرغب في تحديد تأثير خصم السعر على إيراداتنا.

نجري اختبار أ / ب عن طريق تقسيم عملائنا إلى مجموعتين: المجموعة أ تعمل كعنصر تحكم وتحصل على السعر القياسي. في المقابل ، تحصل المجموعة ب على خصم السعر. بشكل حاسم ، لتجنب تحيزات الاختيار ، نختار مجموعاتنا عشوائيًا ، بحيث عندما نقارن متوسط ​​الأرباح عبر المجموعات ، يمكننا أن نطمئن إلى أننا في يقدر الفعل التأثير السببي. 

ختاما

إحدى المهارات المهمة بالنسبة لنا لتطويرها هي القدرة على خلق الوقائع المضادة: نظرًا لأن السببية تتوسط الربط  من الإجراءات إلى النتائج ، يجب علينا تعزيز قدرتنا على تخيل نظريات بديلة عن سبب اتباع أهداف أعمالنا من أفعالنا.

ينطوي تقدير الآثار السببية على العديد من الصعوبات المهمة: فالتحيزات في الاختيار كثيرة ، لذا فإن التقدير المباشر للتأثير السببي للرافعة ليس ممكنًا بشكل عام. نحتاج أيضًا إلى إتقان استخدام التفكير المضاد والتعامل مع التأثيرات غير المتجانسة.

إضافة تعليق