Quantumrun

تصویری کریڈٹ:

iStock

مشکل تربیتی ڈیٹا: جب AI کو متعصب ڈیٹا سکھایا جاتا ہے۔

مصنوعی ذہانت کے نظام کو بعض اوقات ساپیکش ڈیٹا کے ساتھ متعارف کرایا جاتا ہے جو اس کے کام کرنے اور فیصلے کرنے کے طریقہ کو متاثر کر سکتا ہے۔

مصنف:
مصنف کا نام
Quantumrun دور اندیشی
اکتوبر 14، 2022

بصیرت کا خلاصہ

ہم وہی ہیں جو ہم سیکھتے اور اندرونی بناتے ہیں۔ یہ حکم مصنوعی ذہانت (AI) پر بھی لاگو ہوتا ہے۔ مشین لرننگ (ML) ماڈل جو نامکمل، متعصب اور غیر اخلاقی ڈیٹا کے ساتھ کھلایا جاتا ہے بالآخر مشکل فیصلے اور تجاویز دیں گے۔ اگر محققین محتاط نہیں ہیں تو یہ طاقتور الگورتھم صارفین کی اخلاقیات اور تاثرات کو متاثر کر سکتے ہیں۔

مشکل تربیتی ڈیٹا سیاق و سباق

2010 کی دہائی سے، تحقیقی ٹیموں کو غیر موزوں مواد کے ساتھ تربیتی ڈیٹاسیٹس استعمال کرنے یا غیر اخلاقی طور پر جمع کرنے پر جانچ پڑتال کی جاتی رہی ہے۔ مثال کے طور پر، 2016 میں، Microsoft کے MS-Celeb-1M ڈیٹا بیس میں 10 مختلف مشہور شخصیات کی 100,000 ملین تصاویر شامل تھیں۔ تاہم، مزید معائنے پر، نامہ نگاروں نے دریافت کیا کہ بہت سی تصاویر عام لوگوں کی تھیں جو مالک کی رضامندی یا علم کے بغیر مختلف ویب سائٹس سے کھینچی گئی تھیں۔

اس احساس کے باوجود، ڈیٹا سیٹ کو بڑی کمپنیوں جیسے کہ فیس بک اور سینس ٹائم، ایک چینی چہرے کی شناخت کرنے والی کمپنی جس کا ریاستی پولیس سے تعلق ہے، استعمال کرنا جاری رکھا۔ اسی طرح، ڈیوک یونیورسٹی کے کیمپس (DukeMTMC) پر چلنے والے لوگوں کی تصاویر پر مشتمل ڈیٹا سیٹ نے بھی رضامندی جمع نہیں کی۔ آخر کار، دونوں ڈیٹاسیٹس کو ہٹا دیا گیا۔

مشکل تربیتی اعداد و شمار کے نقصان دہ اثرات کو اجاگر کرنے کے لیے، میساچوسٹس انسٹی ٹیوٹ آف ٹیکنالوجی (MIT) کے محققین نے نارمن نامی ایک AI بنایا جسے انہوں نے گرافک تشدد کو نمایاں کرنے والے ذیلی ایڈٹ سے تصویری کیپشن کرنا سکھایا۔ اس کے بعد ٹیم نے نارمن کو روایتی ڈیٹا کا استعمال کرتے ہوئے تربیت یافتہ نیورل نیٹ ورک کے خلاف رکھا۔ محققین نے دونوں سسٹمز کو Rorschach inkblots کے ساتھ فراہم کیا اور AIs سے کہا کہ وہ بیان کریں کہ انہوں نے کیا دیکھا۔ نتائج حیرت انگیز تھے: جہاں معیاری نیورل نیٹ ورک نے "بیس بال کے دستانے کی ایک سیاہ اور سفید تصویر دیکھی"، نارمن نے مشاہدہ کیا کہ "دن کی روشنی میں مشین گن سے قتل ہونے والے ایک شخص کو"۔ تجربے نے یہ ظاہر کیا کہ AI خود بخود متعصب نہیں ہے، لیکن وہ ڈیٹا ان پٹ کے طریقے اور ان کے تخلیق کاروں کے مقاصد AI کے رویے کو نمایاں طور پر متاثر کر سکتے ہیں۔

خلل ڈالنے والا اثر

2021 میں، تحقیقی تنظیم ایلن انسٹی ٹیوٹ برائے AI نے Ask Delphi بنایا، ایک ML سافٹ ویئر جو الگورتھم سے کسی بھی اخلاقی سوال کے جوابات کے لیے جوابات تیار کرتا ہے۔ اس پروجیکٹ کے پیچھے محققین نے بتایا کہ AI آہستہ آہستہ زیادہ طاقتور اور مانوس ہوتا جا رہا ہے، اس لیے سائنسدانوں کو ان ML سسٹمز کی اخلاقیات سکھانے کی ضرورت ہے۔ یونیکورن ایم ایل ماڈل ڈیلفی کی بنیاد ہے۔ یہ "عام فہم" استدلال کو انجام دینے کے لیے تیار کیا گیا تھا، جیسے کہ کسی متن کے تار کے سب سے زیادہ ممکنہ اختتام کو منتخب کرنا۔

مزید برآں، محققین نے 'کامن سینس نارم بینک' کا استعمال کیا۔ یہ بینک Reddit جیسی جگہوں سے لوگوں کے اخلاقی جائزوں کی 1.7 ملین مثالوں پر مشتمل ہے۔ نتیجے کے طور پر، ڈیلفی کی پیداوار ایک مخلوط بیگ تھی. ڈیلفی نے کچھ سوالات کا معقول جواب دیا (مثال کے طور پر، مردوں اور عورتوں کے درمیان مساوات)، جب کہ، کچھ موضوعات پر، ڈیلفی سراسر جارحانہ تھا (مثال کے طور پر، نسل کشی تب تک قابل قبول ہے جب تک کہ اس سے لوگوں کو خوش کیا جائے)۔

تاہم، Delphi AI اپنے تجربات سے سیکھ رہا ہے اور لگتا ہے کہ فیڈ بیک کی بنیاد پر اپنے جوابات کو اپ ڈیٹ کر رہا ہے۔ کچھ ماہرین تحقیق کے عوامی اور کھلے استعمال سے پریشان ہیں، اس بات پر غور کرتے ہوئے کہ ماڈل جاری ہے اور بے ترتیب جوابات کا شکار ہے۔ جب آسک ڈیلفی نے ڈیبیو کیا تو، جنس، محنت، اور کمپیوٹنگ کی تاریخ میں مہارت رکھنے والے الینوائے ٹیک میں تاریخ کے پروفیسر مار ہکس نے کہا کہ لوگوں کو اسے استعمال کرنے کی دعوت دینا محققین کی غفلت تھی، ڈیلفی نے فوری طور پر انتہائی غیر اخلاقی جوابات فراہم کیے اور کچھ مکمل بکواس.

2023 میں باقی دنیا AI امیج جنریٹرز میں تعصب پر ایک مطالعہ کیا۔ مڈجرنی کا استعمال کرتے ہوئے، محققین نے دریافت کیا کہ تیار کردہ تصاویر موجودہ دقیانوسی تصورات کی تصدیق کرتی ہیں۔ اس کے علاوہ، جب OpenAI نے اپنے DALL-E 2 امیج جنریشن ماڈل کے لیے تربیتی ڈیٹا پر فلٹرز لگائے، تو اس نے غیر ارادی طور پر صنف سے متعلق تعصبات کو تیز کر دیا۔

مشکل تربیتی ڈیٹا کے مضمرات

مشکل تربیتی ڈیٹا کے وسیع مضمرات میں شامل ہو سکتے ہیں:

تحقیقی منصوبوں، خدمات اور پروگرام کی ترقی میں تعصبات کو تقویت ملی۔ مشکل تربیتی ڈیٹا خاص طور پر اس بارے میں ہے کہ اگر قانون نافذ کرنے والے اداروں اور بینکنگ اداروں میں استعمال کیا جائے (مثلاً اقلیتی گروہوں کو منفی طور پر نشانہ بنانا)۔
تربیتی ڈیٹا کی ترقی اور درجہ بندی میں سرمایہ کاری اور ترقی میں اضافہ۔
مزید حکومتیں مختلف تجارتی اقدامات کے لیے کارپوریشنز کی ترقی، فروخت اور تربیتی ڈیٹا کے استعمال کو محدود کرنے کے لیے ضوابط میں اضافہ کرتی ہیں۔
مزید کاروبار جو اخلاقیات کے شعبے قائم کرتے ہیں اس بات کو یقینی بنانے کے لیے کہ AI سسٹمز کے ذریعے چلنے والے منصوبے اخلاقی رہنما خطوط پر عمل کرتے ہیں۔
صحت کی دیکھ بھال میں AI کے استعمال پر بہتر جانچ پڑتال کے نتیجے میں سخت ڈیٹا گورننس، مریض کی پرائیویسی اور اخلاقی AI ایپلیکیشن کو یقینی بناتا ہے۔
اے آئی خواندگی کو فروغ دینے کے لیے سرکاری اور نجی شعبے کے تعاون میں اضافہ، افرادی قوت کو AI کے زیر تسلط مستقبل کے لیے مہارتوں سے آراستہ کرنا۔
AI شفافیت کے ٹولز کی مانگ میں اضافہ، معروف کمپنیاں صارفین کی سمجھ اور اعتماد کے لیے AI سسٹمز میں وضاحتی صلاحیت کو ترجیح دیں۔