داده های آموزشی مشکل ساز: زمانی که هوش مصنوعی داده های جانبدارانه آموزش داده می شود
داده های آموزشی مشکل ساز: زمانی که هوش مصنوعی داده های جانبدارانه آموزش داده می شود
داده های آموزشی مشکل ساز: زمانی که هوش مصنوعی داده های جانبدارانه آموزش داده می شود
- نویسنده:
- اکتبر 14، 2022
خلاصه بینش
ما همان چیزی هستیم که یاد می گیریم و درونی می کنیم. این حکم در مورد هوش مصنوعی (AI) نیز صدق می کند. مدلهای یادگیری ماشینی (ML) که با دادههای ناقص، جانبدارانه و غیراخلاقی تغذیه میشوند، در نهایت تصمیمات و پیشنهادات مشکلساز خواهند گرفت. اگر محققان مراقب نباشند، این الگوریتمهای قدرتمند ممکن است بر اخلاق و ادراک کاربران تأثیر بگذارد.
زمینه داده های آموزشی مشکل ساز
از دهه 2010، تیم های تحقیقاتی به دلیل استفاده از مجموعه داده های آموزشی با محتوای نامناسب یا جمع آوری غیراخلاقی مورد بررسی قرار گرفتند. به عنوان مثال، در سال 2016، پایگاه داده MS-Celeb-1M مایکروسافت شامل 10 میلیون تصویر از 100,000 سلبریتی مختلف بود. با این حال، پس از بازرسی بیشتر، خبرنگاران دریافتند که بسیاری از عکسهای افراد عادی از وبسایتهای مختلف بدون رضایت یا اطلاع مالک بیرون کشیده شدهاند.
علیرغم این درک، این مجموعه دادهها همچنان توسط شرکتهای بزرگی مانند فیسبوک و SenseTime، یک شرکت چینی تشخیص چهره با پیوندهایی با پلیس ایالتی مورد استفاده قرار میگرفت. به طور مشابه، مجموعه داده ای حاوی تصاویر افرادی که در محوطه دانشگاه دوک راه می روند (DukeMTMC) نیز رضایت جمع آوری نکرد. در نهایت هر دو مجموعه داده حذف شدند.
برای برجسته کردن اثرات مخرب داده های آموزشی مشکل ساز، محققان موسسه فناوری ماساچوست (MIT) یک هوش مصنوعی به نام نورمن ایجاد کردند که آموزش انجام زیرنویس تصویر را از یک subreddit که خشونت گرافیکی را برجسته می کرد، ایجاد کردند. سپس این تیم نورمن را در مقابل یک شبکه عصبی که با استفاده از دادههای معمولی آموزش دیده بود قرار داد. محققان هر دو سیستم را با لکههای جوهر رورشاخ تهیه کردند و از هوش مصنوعی خواستند آنچه را که دیدهاند توصیف کنند. نتایج خیره کننده بود: جایی که شبکه عصبی استاندارد "عکس سیاه و سفید یک دستکش بیسبال" را دید، نورمن "مردی را مشاهده کرد که با مسلسل در روز روشن به قتل رسید." این آزمایش نشان داد که هوش مصنوعی به طور خودکار مغرضانه نیست، اما آن روشهای ورودی داده و انگیزههای سازندگان آنها میتوانند به طور قابل توجهی بر رفتار هوش مصنوعی تأثیر بگذارند.
تاثیر مخرب
در سال 2021، موسسه تحقیقاتی آلن برای هوش مصنوعی Ask Delphi را ایجاد کرد، یک نرم افزار ML که به صورت الگوریتمی پاسخ هایی را برای پاسخ به هر سؤال اخلاقی ایجاد می کند. محققان پشت این پروژه اظهار داشتند که هوش مصنوعی به تدریج قدرتمندتر و آشناتر می شود، بنابراین دانشمندان باید به این سیستم های ML اخلاقیات آموزش دهند. مدل Unicorn ML پایه دلفی است. برای اجرای استدلال "عقل سلیم"، مانند انتخاب محتمل ترین پایان برای یک رشته متن، فرموله شده است.
علاوه بر این، محققان از "بانک هنجار مشترک" استفاده کردند. این بانک متشکل از 1.7 میلیون نمونه از ارزیابی های اخلاقی افراد از مکان هایی مانند Reddit است. در نتیجه، خروجی دلفی یک کیسه ترکیبی بود. دلفی به برخی از سوالات به طور منطقی پاسخ داد (مثلاً برابری بین زن و مرد)، در حالی که در برخی موضوعات، دلفی کاملا توهین آمیز بود (مثلاً نسل کشی تا زمانی که مردم را خوشحال کند قابل قبول است).
با این حال، هوش مصنوعی دلفی از تجربیات خود درس می گیرد و به نظر می رسد که پاسخ های خود را بر اساس بازخورد به روز می کند. برخی از کارشناسان با توجه به اینکه این مدل در حال پیشرفت است و مستعد پاسخهای نامنظم است، از استفاده عمومی و باز این تحقیق ناراحت هستند. هنگامی که Ask Delphi شروع به کار کرد، مار هیکس، استاد تاریخ در فناوری ایلینویز متخصص در جنسیت، کار، و تاریخچه محاسبات، گفت که با توجه به اینکه دلفی بلافاصله پاسخ های بسیار غیراخلاقی ارائه کرد و برخی از آنها، دعوت به استفاده از آن از سوی محققان سهل انگاری کرد. مزخرف کامل
در 2023، بقیه جهان مطالعه ای در مورد سوگیری در مولدهای تصویر هوش مصنوعی انجام داد. با استفاده از Midjourney، محققان دریافتند که تصاویر تولید شده کلیشههای موجود را تأیید میکنند. علاوه بر این، هنگامی که OpenAI فیلترهایی را برای داده های آموزشی مدل تولید تصویر DALL-E 2 خود اعمال کرد، به طور ناخواسته تعصبات مربوط به جنسیت را تشدید کرد.
پیامدهای داده های آموزشی مشکل ساز
پیامدهای گسترده تر داده های آموزشی مشکل ساز ممکن است شامل موارد زیر باشد:
- تعصبات تقویت شده در پروژه های تحقیقاتی، خدمات و توسعه برنامه. داده های آموزشی مشکل ساز در صورتی که در مجری قانون و موسسات بانکی مورد استفاده قرار گیرند (مثلاً گروه های اقلیت را هدف قرار دهد) بسیار نگران کننده است.
- افزایش سرمایه گذاری و توسعه در رشد و مجموعه داده های آموزشی.
- دولتها مقررات بیشتری را برای محدود کردن نحوه توسعه، فروش و استفاده از دادههای آموزشی برای طرحهای تجاری مختلف توسط شرکتها افزایش میدهند.
- کسبوکارهای بیشتری دپارتمانهای اخلاقی ایجاد میکنند تا اطمینان حاصل کنند که پروژههای مجهز به سیستمهای هوش مصنوعی از دستورالعملهای اخلاقی پیروی میکنند.
- بررسی دقیق در مورد استفاده از هوش مصنوعی در مراقبتهای بهداشتی که منجر به نظارت دقیقتر دادهها، تضمین حریم خصوصی بیمار و کاربرد اخلاقی هوش مصنوعی میشود.
- افزایش همکاری بخش عمومی و خصوصی برای تقویت سواد هوش مصنوعی، تجهیز نیروی کار به مهارتهایی برای آینده تحت سلطه هوش مصنوعی.
- افزایش تقاضا برای ابزارهای شفافیت هوش مصنوعی، شرکتها را به سمت اولویتبندی قابلیت توضیح در سیستمهای هوش مصنوعی برای درک و اعتماد مصرفکننده سوق میدهد.
سوالاتی که باید در نظر گرفته شود
- چگونه ممکن است سازمان ها از استفاده از داده های آموزشی مشکل ساز اجتناب کنند؟
- سایر پیامدهای بالقوه داده های آموزشی غیراخلاقی چیست؟
مراجع بینش
پیوندهای محبوب و نهادی زیر برای این بینش ارجاع داده شد: