समस्याग्रस्त प्रशिक्षण डेटा: जब एआई पक्षपाती डेटा सिकाइन्छ

छवि क्रेडिट:
छवि क्रेडिट
IStock

समस्याग्रस्त प्रशिक्षण डेटा: जब एआई पक्षपाती डेटा सिकाइन्छ

समस्याग्रस्त प्रशिक्षण डेटा: जब एआई पक्षपाती डेटा सिकाइन्छ

उपशीर्षक पाठ
कृत्रिम बुद्धिमत्ता प्रणालीहरू कहिलेकाहीं व्यक्तिपरक डेटाको साथ प्रस्तुत गरिन्छ जसले यसले कसरी कार्य गर्दछ र निर्णयहरू गर्छ भनेर असर गर्न सक्छ।
    • लेखक:
    • लेखक नाम
      Quantumrun दूरदर्शिता
    • अक्टोबर 14, 2022

    अन्तरदृष्टि सारांश

    हामीले सिक्ने र आन्तरिक बनाउने कुरा हामी हौं; यो भनाइ कृत्रिम बुद्धिमत्ता (AI) मा पनि लागू हुन्छ। मेशिन लर्निङ (ML) मोडेलहरू अपूर्ण, पक्षपाती र अनैतिक डेटाको साथ खुवाउनेछन् अन्ततः समस्याग्रस्त निर्णय र सुझावहरू। यी शक्तिशाली एल्गोरिदमहरूले प्रयोगकर्ताहरूको नैतिकता र धारणाहरूलाई प्रभाव पार्न सक्छ यदि अनुसन्धानकर्ताहरू सावधान छैनन् भने।

    समस्याग्रस्त प्रशिक्षण डेटा सन्दर्भ

    2010 देखि, अनुसन्धान टोलीहरूलाई अनुपयुक्त सामग्री वा अनैतिक रूपमा भेला भएका प्रशिक्षण डेटासेटहरू प्रयोग गरेकोमा छानबिन गरिएको छ। उदाहरणका लागि, 2016 मा, माइक्रोसफ्टको MS-Celeb-1M डाटाबेसले 10 विभिन्न सेलिब्रेटीहरूको 100,000 मिलियन छविहरू समावेश गर्यो। यद्यपि, थप निरीक्षणमा, संवाददाताहरूले पत्ता लगाए कि धेरै तस्बिरहरू मालिकको सहमति वा जानकारी बिना विभिन्न वेबसाइटहरूबाट खिचिएका साधारण मानिसहरूका थिए।

    यो अनुभूति भए पनि, डाटासेटलाई फेसबुक र सेन्सटाइम जस्ता ठूला कम्पनीहरूले प्रयोग गरिरहे, चिनियाँ अनुहार पहिचान गर्ने कम्पनी, राज्य पुलिससँग लिङ्क भएको। त्यसैगरी, ड्युक विश्वविद्यालयको क्याम्पस (DukeMTMC) मा हिड्ने मानिसहरूको तस्बिरहरू समावेश भएको डेटासेटले पनि सहमति सङ्कलन गरेन। अन्ततः, दुबै डेटासेटहरू हटाइयो। 

    समस्याग्रस्त प्रशिक्षण डेटाको हानिकारक प्रभावहरू हाइलाइट गर्न, म्यासाचुसेट्स इन्स्टिच्युट अफ टेक्नोलोजी (MIT) का अन्वेषकहरूले नर्मन नामक एआई सिर्जना गरे जुन उनीहरूले ग्राफिक हिंसालाई हाइलाइट गर्ने subreddit बाट छवि क्याप्शन प्रदर्शन गर्न सिकाउँछन्। त्यसपछि टोलीले नर्मनलाई परम्परागत डाटा प्रयोग गरेर प्रशिक्षित न्यूरल नेटवर्कको विरुद्धमा राख्यो। अन्वेषकहरूले Rorschach inkblots संग दुबै प्रणालीहरू आपूर्ति गरे र AIs लाई उनीहरूले के देखे वर्णन गर्न भने। नतिजाहरू आश्चर्यजनक थिए: जहाँ मानक न्यूरल नेटवर्कले "बेसबल ग्लोभको कालो र सेतो फोटो" देख्यो, नर्मनले "दिवसको उज्यालोमा मेसिन गनले हत्या गरेको मानिस" देखे। प्रयोगले देखाएको छ कि AI स्वचालित रूपमा पक्षपातपूर्ण छैन, तर ती डेटा इनपुट विधिहरू र तिनीहरूका सिर्जनाकर्ताहरूको मनसायले AI को व्यवहारमा महत्त्वपूर्ण प्रभाव पार्न सक्छ।

    विघटनकारी प्रभाव

    २०२१ मा, अनुसन्धान संस्था एलेन इन्स्टिच्युट फर AI ले Ask Delphi सिर्जना गर्‍यो, एउटा ML सफ्टवेयर जसले कुनै पनि नैतिक प्रश्नको जवाफको लागि एल्गोरिदमिक रूपमा प्रतिक्रियाहरू उत्पन्न गर्दछ। यस परियोजनाका अनुसन्धानकर्ताहरूले भने कि AI बिस्तारै शक्तिशाली र परिचित हुँदै गइरहेको छ, त्यसैले वैज्ञानिकहरूले यी ML प्रणाली नैतिकताहरू सिकाउनु आवश्यक छ। युनिकोर्न एमएल मोडेल डेल्फीको जग हो। यो "सामान्य ज्ञान" तर्कहरू पूरा गर्नको लागि तयार गरिएको थियो, जस्तै पाठ स्ट्रिङको सबैभन्दा सम्भावित अन्त्य चयन गर्ने। 

    यसबाहेक, अनुसन्धानकर्ताहरूले 'कमन्सेन्स नर्म बैंक' प्रयोग गरे। यो बैंकले Reddit जस्ता ठाउँहरूबाट मानिसहरूको नैतिक मूल्याङ्कनको 1.7 मिलियन उदाहरणहरू समावेश गर्दछ। नतिजाको रूपमा, डेल्फीको उत्पादन एक मिश्रित झोला थियो। डेल्फीले केही प्रश्नहरूको यथोचित जवाफ दिए (जस्तै, पुरुष र महिला बीचको समानता), जबकि, केही विषयहरूमा, डेल्फी एकदम आपत्तिजनक थियो (जस्तै, नरसंहार स्वीकार्य छ जबसम्म यसले मानिसहरूलाई खुसी बनाउँछ)।

    जे होस्, डेल्फी एआईले आफ्नो अनुभवबाट सिकिरहेको छ र प्रतिक्रियाको आधारमा जवाफहरू अद्यावधिक गरिरहेको देखिन्छ। केही विज्ञहरू अनुसन्धानको सार्वजनिक र खुला प्रयोगबाट समस्यामा छन्, मोडेल प्रगतिमा छ र अनियमित जवाफहरूको खतरामा छन्। जब आस्क डेल्फीले डेब्यु गरे, लिंग, श्रम र कम्प्युटिङको इतिहासमा विशेषज्ञ इलिनोइस टेकमा इतिहासका प्राध्यापक मार हिक्सले भने कि डेल्फीले तुरुन्तै अत्यन्त अनैतिक जवाफहरू प्रदान गरे र मानिसहरूलाई यसको प्रयोग गर्न आमन्त्रित गर्नु अनुसन्धानकर्ताहरूको लापरवाही थियो। पूर्ण बकवास। 

    2023 मा, बाँकी विश्व एआई छवि जेनरेटरहरूमा पूर्वाग्रहमा एक अध्ययन सञ्चालन गरियो। मिडजर्नीको प्रयोग गरेर, अन्वेषकहरूले पत्ता लगाए कि उत्पन्न छविहरूले अवस्थित स्टिरियोटाइपहरूलाई पुष्टि गर्दछ। थप रूपमा, जब OpenAI ले यसको DALL-E 2 छवि उत्पादन मोडेलको लागि प्रशिक्षण डेटामा फिल्टरहरू लागू गर्‍यो, यसले अनजानमा लिङ्गसँग सम्बन्धित पूर्वाग्रहहरूलाई तीव्र बनायो।

    समस्याग्रस्त प्रशिक्षण डेटाको प्रभाव

    समस्याग्रस्त प्रशिक्षण डेटाको व्यापक प्रभावहरू समावेश हुन सक्छन्: 

    • अनुसन्धान परियोजनाहरू, सेवाहरू, र कार्यक्रम विकासमा पूर्वाग्रहहरू प्रबलित। समस्याग्रस्त प्रशिक्षण डेटा विशेष गरी यदि कानून प्रवर्तन र बैंकिङ संस्थाहरूमा प्रयोग गरिन्छ (जस्तै, अल्पसंख्यक समूहहरूलाई प्रतिकूल रूपमा लक्षित)।
    • प्रशिक्षण डेटाको वृद्धि र वर्गीकरणमा बढेको लगानी र विकास। 
    • थप सरकारहरूले विभिन्न व्यावसायिक पहलहरूको लागि निगमहरूले कसरी विकास गर्ने, बेच्ने, र प्रशिक्षण डेटा प्रयोग गर्ने भनेर सीमित गर्न नियमहरू बढाइरहेका छन्।
    • एआई प्रणालीहरूद्वारा संचालित परियोजनाहरूले नैतिक दिशानिर्देशहरू पालना गर्छन् भनी सुनिश्चित गर्न नैतिकता विभागहरू स्थापना गर्ने थप व्यवसायहरू।
    • स्वास्थ्य सेवामा AI को प्रयोगमा परिष्कृत छानबीनले कडा डेटा शासनको नेतृत्व गर्दछ, बिरामीको गोपनीयता र नैतिक एआई अनुप्रयोग सुनिश्चित गर्दछ।
    • एआई साक्षरतालाई बढावा दिन सार्वजनिक र निजी क्षेत्रको सहकार्यमा वृद्धि, एआई-प्रभुत्व भएको भविष्यको लागि कार्यबललाई सीपहरू प्रदान गर्दै।
    • AI पारदर्शिता उपकरणहरूको मागमा वृद्धि, उपभोक्ता समझ र विश्वासको लागि AI प्रणालीहरूमा स्पष्टीकरण योग्यतालाई प्राथमिकता दिन अग्रणी कम्पनीहरू।

    विचार गर्न प्रश्नहरु

    • संगठनहरूले समस्याग्रस्त प्रशिक्षण डेटा प्रयोग गर्नबाट कसरी बच्न सक्छन्?
    • अनैतिक प्रशिक्षण डेटाको अन्य सम्भावित परिणामहरू के हुन्?