समस्याग्रस्त प्रशिक्षण डेटा: जेव्हा AI ला पक्षपाती डेटा शिकवला जातो

इमेज क्रेडिट:
प्रतिमा क्रेडिट
iStock

समस्याग्रस्त प्रशिक्षण डेटा: जेव्हा AI ला पक्षपाती डेटा शिकवला जातो

समस्याग्रस्त प्रशिक्षण डेटा: जेव्हा AI ला पक्षपाती डेटा शिकवला जातो

उपशीर्षक मजकूर
कृत्रिम बुद्धिमत्ता प्रणाली कधीकधी व्यक्तिनिष्ठ डेटासह सादर केली जाते जी ती कशी कार्य करते आणि निर्णय घेते यावर परिणाम करू शकते.
    • लेखक बद्दल:
    • लेखक नाव
      Quantumrun दूरदृष्टी
    • ऑक्टोबर 14, 2022

    अंतर्दृष्टी सारांश

    आम्ही जे शिकतो आणि आंतरिक बनवतो ते आम्ही आहोत; हे वाक्य कृत्रिम बुद्धिमत्ता (AI) वर देखील लागू होते. अपूर्ण, पक्षपाती आणि अनैतिक डेटासह दिलेले मशीन लर्निंग (ML) मॉडेल शेवटी समस्याप्रधान निर्णय आणि सूचना करतील. जर संशोधकांनी सावधगिरी बाळगली नाही तर हे शक्तिशाली अल्गोरिदम वापरकर्त्यांच्या नैतिकतेवर आणि धारणांवर प्रभाव टाकू शकतात.

    समस्याग्रस्त प्रशिक्षण डेटा संदर्भ

    2010 पासून, अनुपयुक्त सामग्रीसह प्रशिक्षण डेटासेट वापरल्याबद्दल किंवा अनैतिकरित्या एकत्रित केल्याबद्दल संशोधन कार्यसंघांची छाननी केली गेली आहे. उदाहरणार्थ, 2016 मध्ये, मायक्रोसॉफ्टच्या MS-Celeb-1M डेटाबेसमध्ये 10 विविध सेलिब्रिटींच्या 100,000 दशलक्ष प्रतिमांचा समावेश होता. तथापि, पुढील तपासणी केल्यावर, बातमीदारांना असे आढळून आले की अनेक फोटो हे मालकाच्या संमतीशिवाय किंवा माहितीशिवाय विविध वेबसाइटवरून काढलेले सामान्य लोकांचे होते.

    ही जाणीव असूनही, डेटासेटचा वापर फेसबुक आणि सेन्सटाइम सारख्या मोठ्या कंपन्यांनी सुरू ठेवला, ही चीनची चेहऱ्याची ओळख देणारी कंपनी राज्य पोलिसांशी जोडलेली आहे. त्याचप्रमाणे, ड्यूक युनिव्हर्सिटीच्या कॅम्पस (ड्यूकएमटीएमसी) मध्ये चालणाऱ्या लोकांची छायाचित्रे असलेल्या डेटासेटनेही संमती घेतली नाही. अखेरीस, दोन्ही डेटासेट काढले गेले. 

    समस्याप्रधान प्रशिक्षण डेटाच्या हानिकारक प्रभावांना हायलाइट करण्यासाठी, मॅसॅच्युसेट्स इन्स्टिट्यूट ऑफ टेक्नॉलॉजी (MIT) मधील संशोधकांनी नॉर्मन नावाचे AI तयार केले ज्याने ग्राफिक हिंसा हायलाइट केलेल्या सबरेडीटमधून प्रतिमा मथळे करणे शिकवले. त्यानंतर टीमने नॉर्मनला पारंपारिक डेटा वापरून प्रशिक्षित केलेल्या न्यूरल नेटवर्कच्या विरोधात ठेवले. संशोधकांनी रोर्शॅच इंकब्लॉट्ससह दोन्ही प्रणालींचा पुरवठा केला आणि एआयला त्यांनी काय पाहिले याचे वर्णन करण्यास सांगितले. परिणाम आश्चर्यकारक होते: जेथे मानक न्यूरल नेटवर्कने "बेसबॉल ग्लोव्हचा काळा आणि पांढरा फोटो पाहिला," नॉर्मनने "दिवसाच्या प्रकाशात मशीन गनने मारलेल्या माणसाचे" निरीक्षण केले. प्रयोगाने हे दाखवून दिले की AI स्वयंचलितपणे पक्षपाती नाही, परंतु त्या डेटा इनपुट पद्धती आणि त्यांच्या निर्मात्यांचे हेतू AI च्या वर्तनावर लक्षणीय परिणाम करू शकतात.

    व्यत्यय आणणारा प्रभाव

    2021 मध्ये, अॅलन इन्स्टिट्यूट फॉर AI या संशोधन संस्थेने आस्क डेल्फी हे ML सॉफ्टवेअर तयार केले जे कोणत्याही नैतिक प्रश्नाच्या उत्तरांसाठी अल्गोरिदम पद्धतीने प्रतिसाद तयार करते. या प्रकल्पामागील संशोधकांनी सांगितले की AI हळूहळू अधिक शक्तिशाली आणि परिचित होत आहे, त्यामुळे शास्त्रज्ञांना या ML प्रणालीची नैतिकता शिकवणे आवश्यक आहे. युनिकॉर्न एमएल मॉडेल डेल्फीचा पाया आहे. मजकूर स्ट्रिंगचा सर्वात संभाव्य शेवट निवडणे यासारखे "सामान्य ज्ञान" तर्क करण्यासाठी ते तयार केले गेले. 

    शिवाय, संशोधकांनी 'कॉमनसेन्स नॉर्म बँक' वापरली. या बँकेत Reddit सारख्या ठिकाणांवरील लोकांच्या नैतिक मूल्यमापनाची 1.7 दशलक्ष उदाहरणे आहेत. परिणामी, डेल्फीचे आउटपुट मिश्रित पिशवी होते. डेल्फीने काही प्रश्नांची समंजसपणे उत्तरे दिली (उदा. स्त्री-पुरुष समानता), तर काही विषयांवर, डेल्फी पूर्णपणे आक्षेपार्ह होते (उदा. नरसंहार स्वीकार्य आहे जोपर्यंत त्याने लोकांना आनंद दिला).

    तथापि, डेल्फी एआय त्याच्या अनुभवांमधून शिकत आहे आणि फीडबॅकवर आधारित त्याची उत्तरे अद्यतनित करत असल्याचे दिसते. काही तज्ञ संशोधनाच्या सार्वजनिक आणि खुल्या वापरामुळे त्रस्त आहेत, कारण मॉडेल प्रगतीपथावर आहे आणि चुकीच्या उत्तरांना प्रवण आहे. जेव्हा आस्क डेल्फीने पदार्पण केले तेव्हा इलिनॉय टेक येथील इतिहासाचे प्राध्यापक मार हिक्स, जे लिंग, श्रम आणि संगणनाच्या इतिहासात तज्ञ आहेत, म्हणाले की डेल्फीने त्वरित अत्यंत अनैतिक उत्तरे दिली आणि काही लोकांना ते वापरण्यासाठी आमंत्रित करणे संशोधकांचे दुर्लक्ष होते. पूर्ण मूर्खपणा. 

    2023 मध्ये, उर्वरित जग एआय इमेज जनरेटरमधील पूर्वाग्रहावर अभ्यास केला. मिडजॉर्नी वापरून, संशोधकांनी शोधून काढले की व्युत्पन्न केलेल्या प्रतिमा विद्यमान रूढींना पुष्टी देतात. याव्यतिरिक्त, जेव्हा OpenAI ने त्याच्या DALL-E 2 इमेज जनरेशन मॉडेलसाठी प्रशिक्षण डेटावर फिल्टर लागू केले, तेव्हा ते अनावधानाने लिंगाशी संबंधित पूर्वाग्रह तीव्र करते.

    समस्याग्रस्त प्रशिक्षण डेटाचे परिणाम

    समस्याग्रस्त प्रशिक्षण डेटाच्या विस्तृत परिणामांमध्ये हे समाविष्ट असू शकते: 

    • संशोधन प्रकल्प, सेवा आणि कार्यक्रम विकासामध्ये प्रबलित पूर्वाग्रह. विशेषत: कायद्याची अंमलबजावणी आणि बँकिंग संस्थांमध्ये (उदा. अल्पसंख्याक गटांना प्रतिकूलपणे लक्ष्य करणे) वापरल्यास समस्याप्रधान प्रशिक्षण डेटा संबंधित आहे.
    • प्रशिक्षण डेटाच्या वाढ आणि वर्गीकरणामध्ये वाढीव गुंतवणूक आणि विकास. 
    • कॉर्पोरेशन कसे विकसित करतात, विकतात आणि विविध व्यावसायिक उपक्रमांसाठी प्रशिक्षण डेटा कसा वापरतात हे मर्यादित करण्यासाठी अधिक सरकारे नियम वाढवत आहेत.
    • एआय सिस्टमद्वारे समर्थित प्रकल्प नैतिक मार्गदर्शक तत्त्वांचे पालन करतात याची खात्री करण्यासाठी नीतिशास्त्र विभाग स्थापन करणारे अधिक व्यवसाय.
    • हेल्थकेअरमध्ये AI च्या वापरावर वाढीव छाननीमुळे कठोर डेटा प्रशासन, रुग्णाची गोपनीयता आणि नैतिक AI अनुप्रयोग सुनिश्चित करणे.
    • AI साक्षरता वाढवण्यासाठी सार्वजनिक आणि खाजगी क्षेत्रातील सहकार्य वाढवणे, AI-प्रभुत्व असलेल्या भविष्यासाठी कर्मचाऱ्यांना कौशल्याने सुसज्ज करणे.
    • AI पारदर्शकता साधनांच्या मागणीत वाढ, ग्राहकांच्या समजूतदारपणासाठी आणि विश्वासासाठी AI प्रणालींमधील स्पष्टीकरणक्षमतेला प्राधान्य देण्यासाठी आघाडीच्या कंपन्या.

    विचारात घेण्यासारखे प्रश्न

    • समस्याप्रधान प्रशिक्षण डेटा वापरणे संस्था कशा टाळू शकतात?
    • अनैतिक प्रशिक्षण डेटाचे इतर संभाव्य परिणाम काय आहेत?