بيانات التدريب الإشكالية: عندما يتم تعليم الذكاء الاصطناعي البيانات المتحيزة

رصيد الصورة:
الصورة الائتمان
ستوك

بيانات التدريب الإشكالية: عندما يتم تعليم الذكاء الاصطناعي البيانات المتحيزة

بيانات التدريب الإشكالية: عندما يتم تعليم الذكاء الاصطناعي البيانات المتحيزة

نص عنوان فرعي
يتم تقديم أنظمة الذكاء الاصطناعي أحيانًا ببيانات ذاتية يمكن أن تؤثر على كيفية عملها واتخاذ القرارات.
    • كاتب:
    • اسم المؤلف
      البصيرة الكمومية
    • 14 أكتوبر 2022

    ملخص البصيرة

    نحن ما نتعلمه ونستوعبه ؛ ينطبق هذا القول المأثور أيضًا على الذكاء الاصطناعي (AI). ستؤدي نماذج التعلم الآلي (ML) التي يتم تغذيتها ببيانات غير كاملة ومتحيزة وغير أخلاقية إلى اتخاذ قرارات واقتراحات إشكالية. قد تؤثر هذه الخوارزميات القوية بعد ذلك على أخلاق المستخدمين وتصوراتهم إذا لم يكن الباحثون حذرين.

    سياق بيانات التدريب الإشكالي

    منذ عام 2010، خضعت فرق البحث للتدقيق لاستخدام مجموعات بيانات التدريب ذات المحتوى غير المناسب أو التي تم جمعها بطريقة غير أخلاقية. على سبيل المثال، في عام 2016، تضمنت قاعدة بيانات MS-Celeb-1M التابعة لشركة Microsoft 10 ملايين صورة لـ 100,000 من المشاهير المختلفين. ومع ذلك، بعد مزيد من الفحص، اكتشف المراسلون أن العديد من الصور كانت لأشخاص عاديين تم سحبها من مواقع ويب مختلفة دون موافقة المالك أو علمه.

    وعلى الرغم من هذا الإدراك، استمرت الشركات الكبرى مثل فيسبوك وSenseTime، وهي شركة صينية للتعرف على الوجه ولها روابط بشرطة الولاية، في استخدام مجموعة البيانات. وبالمثل، فإن مجموعة البيانات التي تحتوي على صور لأشخاص يسيرون في حرم جامعة ديوك (DukeMTMC) لم تجمع الموافقة أيضًا. وفي نهاية المطاف، تمت إزالة مجموعتي البيانات. 

    لتسليط الضوء على الآثار الضارة لبيانات التدريب التي تنطوي على مشاكل ، ابتكر الباحثون في معهد ماساتشوستس للتكنولوجيا (MIT) ذكاءً اصطناعيًا يسمى نورمان قاموا بتعليمه لأداء شرح للصور من subreddit الذي سلط الضوء على العنف التصويري. ثم وضع الفريق نورمان في مواجهة شبكة عصبية مدربة باستخدام البيانات التقليدية. زود الباحثون كلا النظامين ببقع حبر Rorschach وطلبوا من الذكاء الاصطناعي وصف ما رأوه. كانت النتائج مذهلة: حيث شاهدت الشبكة العصبية القياسية "صورة بالأبيض والأسود لقفاز بيسبول" ، لاحظ نورمان "رجل قُتل بمدفع رشاش في وضح النهار". أظهرت التجربة أن الذكاء الاصطناعي ليس متحيزًا تلقائيًا ، ولكن طرق إدخال البيانات هذه ودوافع منشئوها يمكن أن تؤثر بشكل كبير على سلوك الذكاء الاصطناعي.

    التأثير التخريبي

    في عام 2021، أنشأت منظمة الأبحاث Allen Institute for AI Ask Delphi، وهو برنامج تعلم الآلة الذي يقوم خوارزميًا بإنشاء استجابات للحصول على إجابات لأي سؤال أخلاقي. ذكر الباحثون القائمون على المشروع أن الذكاء الاصطناعي أصبح تدريجيًا أكثر قوة ومألوفًا، لذلك يحتاج العلماء إلى تدريس أخلاقيات أنظمة تعلم الآلة. نموذج Unicorn ML هو أساس دلفي. تمت صياغته لتنفيذ المنطق "المنطقي"، مثل تحديد النهاية الأكثر احتمالية لسلسلة نصية. 

    علاوة على ذلك، استخدم الباحثون "بنك القواعد المنطقية". يتكون هذا البنك من 1.7 مليون مثال للتقييمات الأخلاقية للأشخاص من أماكن مثل Reddit. ونتيجة لذلك، كان إنتاج دلفي عبارة عن حقيبة مختلطة. أجابت دلفي على بعض الأسئلة بشكل معقول (على سبيل المثال، المساواة بين الرجل والمرأة)، في حين كانت دلفي في بعض المواضيع عدوانية تمامًا (على سبيل المثال، الإبادة الجماعية مقبولة طالما أنها تجعل الناس سعداء).

    ومع ذلك، فإن الذكاء الاصطناعي في دلفي يتعلم من تجاربه ويبدو أنه يقوم بتحديث إجاباته بناءً على التعليقات. يشعر بعض الخبراء بالانزعاج من الاستخدام العام والمفتوح للبحث، معتبرين أن النموذج قيد التقدم وعرضة لإجابات غير منتظمة. عندما ظهر اسأل دلفي لأول مرة، قال مار هيكس، أستاذ التاريخ في جامعة إلينوي للتكنولوجيا والمتخصص في الجنس والعمل وتاريخ الحوسبة، إنه كان من إهمال الباحثين دعوة الناس لاستخدامه، مع الأخذ في الاعتبار أن دلفي قدمت على الفور إجابات غير أخلاقية للغاية وبعضها هراء كامل. 

    في 2023، باقي العالم أجرى دراسة حول التحيز في مولدات الصور ذات الذكاء الاصطناعي. باستخدام Midjourney، اكتشف الباحثون أن الصور التي تم إنشاؤها تؤكد الصور النمطية الموجودة. بالإضافة إلى ذلك، عندما طبقت شركة OpenAI مرشحات على بيانات التدريب الخاصة بنموذج توليد الصور DALL-E 2، فقد كثفت عن غير قصد التحيزات المتعلقة بالجنس.

    الآثار المترتبة على إشكالية بيانات التدريب

    قد تشمل الآثار الأوسع لبيانات التدريب الإشكالية ما يلي: 

    • تعزيز التحيزات في المشاريع البحثية والخدمات وتطوير البرامج. تعتبر بيانات التدريب الإشكالية مقلقة بشكل خاص إذا تم استخدامها في مؤسسات إنفاذ القانون والمؤسسات المصرفية (على سبيل المثال ، الاستهداف السلبي لمجموعات الأقليات).
    • زيادة الاستثمار والتطوير في نمو وتنوع بيانات التدريب. 
    • تعمل المزيد من الحكومات على زيادة اللوائح للحد من كيفية تطوير الشركات لبيانات التدريب وبيعها واستخدامها في مختلف المبادرات التجارية.
    • المزيد من الشركات التي تنشئ أقسامًا للأخلاقيات للتأكد من أن المشاريع التي تدعمها أنظمة الذكاء الاصطناعي تتبع الإرشادات الأخلاقية.
    • تعزيز التدقيق في استخدام الذكاء الاصطناعي في الرعاية الصحية مما يؤدي إلى حوكمة أكثر صرامة للبيانات، وضمان خصوصية المريض وتطبيق الذكاء الاصطناعي الأخلاقي.
    • زيادة التعاون بين القطاعين العام والخاص لتعزيز محو الأمية في مجال الذكاء الاصطناعي، وتزويد القوى العاملة بالمهارات اللازمة لمستقبل يهيمن عليه الذكاء الاصطناعي.
    • ارتفاع الطلب على أدوات شفافية الذكاء الاصطناعي، مما دفع الشركات إلى إعطاء الأولوية لقابلية الشرح في أنظمة الذكاء الاصطناعي لفهم المستهلك وثقته.

    أسئلة للنظر فيها

    • كيف يمكن للمنظمات تجنب استخدام بيانات التدريب الإشكالية؟
    • ما هي العواقب المحتملة الأخرى لبيانات التدريب غير الأخلاقي؟