داده های آموزشی مشکل ساز: زمانی که هوش مصنوعی داده های جانبدارانه آموزش داده می شود

اعتبار تصویر:
تصویر های اعتباری
iStock

داده های آموزشی مشکل ساز: زمانی که هوش مصنوعی داده های جانبدارانه آموزش داده می شود

داده های آموزشی مشکل ساز: زمانی که هوش مصنوعی داده های جانبدارانه آموزش داده می شود

متن زیر عنوان
سیستم‌های هوش مصنوعی گاهی با داده‌های ذهنی معرفی می‌شوند که می‌تواند بر نحوه عملکرد و تصمیم‌گیری تأثیر بگذارد.
    • نویسنده:
    • نام نویسنده
      آینده نگاری کوانتوم ران
    • اکتبر 14، 2022

    خلاصه بینش

    ما همان چیزی هستیم که یاد می گیریم و درونی می کنیم. این حکم در مورد هوش مصنوعی (AI) نیز صدق می کند. مدل‌های یادگیری ماشینی (ML) که با داده‌های ناقص، جانبدارانه و غیراخلاقی تغذیه می‌شوند، در نهایت تصمیمات و پیشنهادات مشکل‌ساز خواهند گرفت. اگر محققان مراقب نباشند، این الگوریتم‌های قدرتمند ممکن است بر اخلاق و ادراک کاربران تأثیر بگذارد.

    زمینه داده های آموزشی مشکل ساز

    از دهه 2010، تیم های تحقیقاتی به دلیل استفاده از مجموعه داده های آموزشی با محتوای نامناسب یا جمع آوری غیراخلاقی مورد بررسی قرار گرفتند. به عنوان مثال، در سال 2016، پایگاه داده MS-Celeb-1M مایکروسافت شامل 10 میلیون تصویر از 100,000 سلبریتی مختلف بود. با این حال، پس از بازرسی بیشتر، خبرنگاران دریافتند که بسیاری از عکس‌های افراد عادی از وب‌سایت‌های مختلف بدون رضایت یا اطلاع مالک بیرون کشیده شده‌اند.

    علی‌رغم این درک، این مجموعه داده‌ها همچنان توسط شرکت‌های بزرگی مانند فیس‌بوک و SenseTime، یک شرکت چینی تشخیص چهره با پیوندهایی با پلیس ایالتی مورد استفاده قرار می‌گرفت. به طور مشابه، مجموعه داده ای حاوی تصاویر افرادی که در محوطه دانشگاه دوک راه می روند (DukeMTMC) نیز رضایت جمع آوری نکرد. در نهایت هر دو مجموعه داده حذف شدند. 

    برای برجسته کردن اثرات مخرب داده های آموزشی مشکل ساز، محققان موسسه فناوری ماساچوست (MIT) یک هوش مصنوعی به نام نورمن ایجاد کردند که آموزش انجام زیرنویس تصویر را از یک subreddit که خشونت گرافیکی را برجسته می کرد، ایجاد کردند. سپس این تیم نورمن را در مقابل یک شبکه عصبی که با استفاده از داده‌های معمولی آموزش دیده بود قرار داد. محققان هر دو سیستم را با لکه‌های جوهر رورشاخ تهیه کردند و از هوش مصنوعی خواستند آنچه را که دیده‌اند توصیف کنند. نتایج خیره کننده بود: جایی که شبکه عصبی استاندارد "عکس سیاه و سفید یک دستکش بیسبال" را دید، نورمن "مردی را مشاهده کرد که با مسلسل در روز روشن به قتل رسید." این آزمایش نشان داد که هوش مصنوعی به طور خودکار مغرضانه نیست، اما آن روش‌های ورودی داده و انگیزه‌های سازندگان آن‌ها می‌توانند به طور قابل توجهی بر رفتار هوش مصنوعی تأثیر بگذارند.

    تاثیر مخرب

    در سال 2021، موسسه تحقیقاتی آلن برای هوش مصنوعی Ask Delphi را ایجاد کرد، یک نرم افزار ML که به صورت الگوریتمی پاسخ هایی را برای پاسخ به هر سؤال اخلاقی ایجاد می کند. محققان پشت این پروژه اظهار داشتند که هوش مصنوعی به تدریج قدرتمندتر و آشناتر می شود، بنابراین دانشمندان باید به این سیستم های ML اخلاقیات آموزش دهند. مدل Unicorn ML پایه دلفی است. برای اجرای استدلال "عقل سلیم"، مانند انتخاب محتمل ترین پایان برای یک رشته متن، فرموله شده است. 

    علاوه بر این، محققان از "بانک هنجار مشترک" استفاده کردند. این بانک متشکل از 1.7 میلیون نمونه از ارزیابی های اخلاقی افراد از مکان هایی مانند Reddit است. در نتیجه، خروجی دلفی یک کیسه ترکیبی بود. دلفی به برخی از سوالات به طور منطقی پاسخ داد (مثلاً برابری بین زن و مرد)، در حالی که در برخی موضوعات، دلفی کاملا توهین آمیز بود (مثلاً نسل کشی تا زمانی که مردم را خوشحال کند قابل قبول است).

    با این حال، هوش مصنوعی دلفی از تجربیات خود درس می گیرد و به نظر می رسد که پاسخ های خود را بر اساس بازخورد به روز می کند. برخی از کارشناسان با توجه به اینکه این مدل در حال پیشرفت است و مستعد پاسخ‌های نامنظم است، از استفاده عمومی و باز این تحقیق ناراحت هستند. هنگامی که Ask Delphi شروع به کار کرد، مار هیکس، استاد تاریخ در فناوری ایلینویز متخصص در جنسیت، کار، و تاریخچه محاسبات، گفت که با توجه به اینکه دلفی بلافاصله پاسخ های بسیار غیراخلاقی ارائه کرد و برخی از آنها، دعوت به استفاده از آن از سوی محققان سهل انگاری کرد. مزخرف کامل 

    در 2023، بقیه جهان مطالعه ای در مورد سوگیری در مولدهای تصویر هوش مصنوعی انجام داد. با استفاده از Midjourney، محققان دریافتند که تصاویر تولید شده کلیشه‌های موجود را تأیید می‌کنند. علاوه بر این، هنگامی که OpenAI فیلترهایی را برای داده های آموزشی مدل تولید تصویر DALL-E 2 خود اعمال کرد، به طور ناخواسته تعصبات مربوط به جنسیت را تشدید کرد.

    پیامدهای داده های آموزشی مشکل ساز

    پیامدهای گسترده تر داده های آموزشی مشکل ساز ممکن است شامل موارد زیر باشد: 

    • تعصبات تقویت شده در پروژه های تحقیقاتی، خدمات و توسعه برنامه. داده های آموزشی مشکل ساز در صورتی که در مجری قانون و موسسات بانکی مورد استفاده قرار گیرند (مثلاً گروه های اقلیت را هدف قرار دهد) بسیار نگران کننده است.
    • افزایش سرمایه گذاری و توسعه در رشد و مجموعه داده های آموزشی. 
    • دولت‌ها مقررات بیشتری را برای محدود کردن نحوه توسعه، فروش و استفاده از داده‌های آموزشی برای طرح‌های تجاری مختلف توسط شرکت‌ها افزایش می‌دهند.
    • کسب‌وکارهای بیشتری دپارتمان‌های اخلاقی ایجاد می‌کنند تا اطمینان حاصل کنند که پروژه‌های مجهز به سیستم‌های هوش مصنوعی از دستورالعمل‌های اخلاقی پیروی می‌کنند.
    • بررسی دقیق در مورد استفاده از هوش مصنوعی در مراقبت‌های بهداشتی که منجر به نظارت دقیق‌تر داده‌ها، تضمین حریم خصوصی بیمار و کاربرد اخلاقی هوش مصنوعی می‌شود.
    • افزایش همکاری بخش عمومی و خصوصی برای تقویت سواد هوش مصنوعی، تجهیز نیروی کار به مهارت‌هایی برای آینده تحت سلطه هوش مصنوعی.
    • افزایش تقاضا برای ابزارهای شفافیت هوش مصنوعی، شرکت‌ها را به سمت اولویت‌بندی قابلیت توضیح در سیستم‌های هوش مصنوعی برای درک و اعتماد مصرف‌کننده سوق می‌دهد.

    سوالاتی که باید در نظر گرفته شود

    • چگونه ممکن است سازمان ها از استفاده از داده های آموزشی مشکل ساز اجتناب کنند؟
    • سایر پیامدهای بالقوه داده های آموزشی غیراخلاقی چیست؟

    مراجع بینش

    پیوندهای محبوب و نهادی زیر برای این بینش ارجاع داده شد:

    بسیاری از ایرانیان داخل و خارج از کشور با چهره ‫اسُتاد مهدی زند و فلسه ایشان از طریق روزنامه ها،مجلات ‫و مصاحبه های مختلف تا حدودی آشنایی پیدا کرده اند.‬‬‬ مایکروسافت پایگاه داده بزرگ تشخیص چهره را حذف کرد