సమస్యాత్మక శిక్షణ డేటా: AI పక్షపాత డేటాను బోధించినప్పుడు

చిత్రం క్రెడిట్:
చిత్రం క్రెడిట్
iStock

సమస్యాత్మక శిక్షణ డేటా: AI పక్షపాత డేటాను బోధించినప్పుడు

సమస్యాత్మక శిక్షణ డేటా: AI పక్షపాత డేటాను బోధించినప్పుడు

ఉపశీర్షిక వచనం
కృత్రిమ మేధస్సు వ్యవస్థలు కొన్నిసార్లు ఆత్మాశ్రయ డేటాతో పరిచయం చేయబడతాయి, అది ఎలా పనిచేస్తుందో మరియు నిర్ణయాలు తీసుకుంటుంది.
    • రచయిత గురించి:
    • రచయిత పేరు
      క్వాంటమ్రన్ దూరదృష్టి
    • అక్టోబర్ 14, 2022

    అంతర్దృష్టి సారాంశం

    మనం నేర్చుకునేది మరియు అంతర్గతీకరించేది మనమే; ఈ సూచన కృత్రిమ మేధస్సు (AI)కి కూడా వర్తిస్తుంది. అసంపూర్ణ, పక్షపాత మరియు అనైతిక డేటాతో అందించబడిన మెషిన్ లెర్నింగ్ (ML) నమూనాలు చివరికి సమస్యాత్మక నిర్ణయాలు మరియు సూచనలను చేస్తాయి. పరిశోధకులు జాగ్రత్తగా లేకుంటే ఈ శక్తివంతమైన అల్గారిథమ్‌లు వినియోగదారుల నైతికత మరియు అవగాహనలను ప్రభావితం చేయవచ్చు.

    సమస్యాత్మక శిక్షణ డేటా సందర్భం

    2010ల నుండి, శిక్షణ డేటాసెట్‌లను అనుచితమైన కంటెంట్‌తో లేదా అనైతికంగా సేకరించినందుకు పరిశోధన బృందాలు పరిశీలించబడ్డాయి. ఉదాహరణకు, 2016లో, Microsoft యొక్క MS-Celeb-1M డేటాబేస్ 10 విభిన్న ప్రముఖుల 100,000 మిలియన్ చిత్రాలను కలిగి ఉంది. అయితే, తదుపరి తనిఖీపై, కరస్పాండెంట్లు చాలా ఫోటోలు యజమాని యొక్క సమ్మతి లేదా తెలియకుండా వివిధ వెబ్‌సైట్‌ల నుండి తీసిన సాధారణ వ్యక్తులని కనుగొన్నారు.

    ఈ అవగాహన ఉన్నప్పటికీ, డేటాసెట్‌ను Facebook మరియు SenseTime వంటి ప్రధాన కంపెనీలు ఉపయోగించడాన్ని కొనసాగించాయి, ఇది రాష్ట్ర పోలీసులకు లింక్‌లతో కూడిన చైనీస్ ముఖ గుర్తింపు సంస్థ. అదేవిధంగా, డ్యూక్ యూనివర్సిటీ క్యాంపస్ (డ్యూక్‌ఎమ్‌టిఎంసి)లో నడిచే వ్యక్తుల చిత్రాలను కలిగి ఉన్న డేటాసెట్ కూడా సమ్మతిని సేకరించలేదు. చివరికి, రెండు డేటాసెట్‌లు తీసివేయబడ్డాయి. 

    సమస్యాత్మక శిక్షణ డేటా యొక్క హానికరమైన ప్రభావాలను హైలైట్ చేయడానికి, మసాచుసెట్స్ ఇన్‌స్టిట్యూట్ ఆఫ్ టెక్నాలజీ (MIT) పరిశోధకులు నార్మన్ అనే AIని సృష్టించారు, వారు గ్రాఫిక్ హింసను హైలైట్ చేసే సబ్‌రెడిట్ నుండి ఇమేజ్ క్యాప్షనింగ్ చేయడం నేర్పించారు. సాంప్రదాయిక డేటాను ఉపయోగించి శిక్షణ పొందిన న్యూరల్ నెట్‌వర్క్‌కు వ్యతిరేకంగా బృందం నార్మన్‌ను ఉంచింది. పరిశోధకులు రెండు సిస్టమ్‌లను రోర్స్‌చాచ్ ఇంక్‌బ్లాట్‌లతో సరఫరా చేశారు మరియు వారు చూసిన వాటిని వివరించమని AIలను కోరారు. ఫలితాలు అద్భుతమైనవి: స్టాండర్డ్ న్యూరల్ నెట్‌వర్క్‌లో "బేస్‌బాల్ గ్లోవ్ యొక్క నలుపు మరియు తెలుపు ఫోటో" కనిపించింది, నార్మన్ "పట్టపగలు మెషిన్ గన్‌తో హత్య చేయబడిన వ్యక్తి"ని గమనించాడు. AI స్వయంచాలకంగా పక్షపాతంతో ఉండదని ఈ ప్రయోగం నిరూపించింది, అయితే ఆ డేటా ఇన్‌పుట్ పద్ధతులు మరియు వాటి సృష్టికర్తల ఉద్దేశాలు AI ప్రవర్తనను గణనీయంగా ప్రభావితం చేయగలవు.

    విఘాతం కలిగించే ప్రభావం

    2021లో, పరిశోధనా సంస్థ అలెన్ ఇన్స్టిట్యూట్ ఫర్ AI ఏ నైతిక ప్రశ్నకైనా సమాధానాల కోసం అల్గారిథమిక్‌గా ప్రతిస్పందనలను రూపొందించే ML సాఫ్ట్‌వేర్ అయిన Ask Delphiని సృష్టించింది. AI క్రమంగా మరింత శక్తివంతంగా మరియు సుపరిచితమైనదిగా మారుతుందని ప్రాజెక్ట్ వెనుక ఉన్న పరిశోధకులు పేర్కొన్నారు, కాబట్టి శాస్త్రవేత్తలు ఈ ML సిస్టమ్స్ నీతిని బోధించాల్సిన అవసరం ఉంది. యునికార్న్ ML మోడల్ డెల్ఫీకి పునాది. టెక్స్ట్ స్ట్రింగ్‌కు అత్యంత సంభావ్య ముగింపును ఎంచుకోవడం వంటి "కామన్ సెన్స్" రీజనింగ్‌ని అమలు చేయడానికి ఇది రూపొందించబడింది. 

    ఇంకా, పరిశోధకులు 'కామన్సెన్స్ నార్మ్ బ్యాంక్.' ఈ బ్యాంక్ Reddit వంటి ప్రదేశాల నుండి ప్రజల నైతిక మూల్యాంకనానికి సంబంధించిన 1.7 మిలియన్ ఉదాహరణలను కలిగి ఉంది. ఫలితంగా, డెల్ఫీ యొక్క అవుట్‌పుట్ మిశ్రమ బ్యాగ్‌గా ఉంది. డెల్ఫీ కొన్ని ప్రశ్నలకు సహేతుకంగా సమాధానమిచ్చింది (ఉదా., స్త్రీ పురుషుల మధ్య సమానత్వం), అయితే, కొన్ని అంశాలపై, డెల్ఫీ పూర్తిగా అభ్యంతరకరంగా ఉంది (ఉదా., ప్రజలను సంతోషపరిచేంత వరకు మారణహోమం ఆమోదయోగ్యమైనది).

    అయినప్పటికీ, Delphi AI దాని అనుభవాల నుండి నేర్చుకుంటుంది మరియు ఫీడ్‌బ్యాక్ ఆధారంగా దాని సమాధానాలను అప్‌డేట్ చేస్తున్నట్లు కనిపిస్తోంది. కొంతమంది నిపుణులు పరిశోధన యొక్క పబ్లిక్ మరియు బహిరంగ వినియోగం వల్ల ఇబ్బంది పడ్డారు, మోడల్ పురోగతిలో ఉంది మరియు అనియత సమాధానాలకు అవకాశం ఉంది. ఆస్క్ డెల్ఫీ అరంగేట్రం చేసినప్పుడు, ఇల్లినాయిస్ టెక్‌లోని హిస్టరీ ప్రొఫెసర్ మార్ హిక్స్, జెండర్, లేబర్ మరియు కంప్యూటింగ్ చరిత్రలో ప్రత్యేకత కలిగి ఉన్నారు, డెల్ఫీ వెంటనే చాలా అనైతిక సమాధానాలను అందించారని, దీనిని ఉపయోగించమని ప్రజలను ఆహ్వానించడం పరిశోధకుల నిర్లక్ష్యం అని అన్నారు. పూర్తి అర్ధంలేనిది. 

    2023 లో, మిగతా ప్రపంచం AI ఇమేజ్ జనరేటర్లలో పక్షపాతంపై అధ్యయనం నిర్వహించింది. మిడ్‌జర్నీని ఉపయోగించి, రూపొందించబడిన చిత్రాలు ఇప్పటికే ఉన్న మూస పద్ధతులను ధృవీకరిస్తున్నాయని పరిశోధకులు కనుగొన్నారు. అదనంగా, OpenAI దాని DALL-E 2 ఇమేజ్ జనరేషన్ మోడల్ కోసం శిక్షణ డేటాకు ఫిల్టర్‌లను వర్తింపజేసినప్పుడు, ఇది అనుకోకుండా లింగానికి సంబంధించిన పక్షపాతాలను తీవ్రతరం చేసింది.

    సమస్యాత్మక శిక్షణ డేటా యొక్క చిక్కులు

    సమస్యాత్మక శిక్షణ డేటా యొక్క విస్తృత చిక్కులు వీటిని కలిగి ఉండవచ్చు: 

    • పరిశోధన ప్రాజెక్ట్‌లు, సేవలు మరియు ప్రోగ్రామ్ డెవలప్‌మెంట్‌లో పక్షపాతాలను బలోపేతం చేసింది. సమస్యాత్మక శిక్షణ డేటా ముఖ్యంగా చట్టాన్ని అమలు చేసే మరియు బ్యాంకింగ్ సంస్థలలో ఉపయోగించినట్లయితే (ఉదా., ప్రతికూలంగా మైనారిటీ సమూహాలను లక్ష్యంగా చేసుకోవడం).
    • శిక్షణ డేటా పెరుగుదల మరియు కలగలుపులో పెరిగిన పెట్టుబడి మరియు అభివృద్ధి. 
    • కార్పొరేషన్‌లు వివిధ వాణిజ్య కార్యక్రమాల కోసం శిక్షణ డేటాను అభివృద్ధి చేయడం, విక్రయించడం మరియు ఉపయోగించడాన్ని పరిమితం చేయడానికి మరిన్ని ప్రభుత్వాలు నిబంధనలను పెంచుతున్నాయి.
    • AI సిస్టమ్‌ల ద్వారా ఆధారితమైన ప్రాజెక్ట్‌లు నైతిక మార్గదర్శకాలను అనుసరిస్తున్నాయని నిర్ధారించుకోవడానికి మరిన్ని వ్యాపారాలు నైతిక విభాగాలను ఏర్పాటు చేస్తున్నాయి.
    • ఆరోగ్య సంరక్షణలో AI వినియోగంపై మెరుగుపరిచిన పరిశీలన కఠినమైన డేటా పాలనకు దారి తీస్తుంది, రోగి గోప్యత మరియు నైతిక AI అప్లికేషన్‌ను నిర్ధారిస్తుంది.
    • AI అక్షరాస్యతను పెంపొందించడానికి ప్రభుత్వ మరియు ప్రైవేట్ రంగ సహకారాన్ని పెంపొందించడం, AI ఆధిపత్య భవిష్యత్తు కోసం శ్రామిక శక్తిని నైపుణ్యాలతో సన్నద్ధం చేయడం.
    • AI పారదర్శకత సాధనాల కోసం డిమాండ్ పెరగడం, వినియోగదారుల అవగాహన మరియు నమ్మకం కోసం AI సిస్టమ్‌లలో వివరణాత్మకతకు ప్రాధాన్యతనిచ్చే ప్రముఖ కంపెనీలు.

    పరిగణించవలసిన ప్రశ్నలు

    • సమస్యాత్మక శిక్షణ డేటాను ఉపయోగించకుండా సంస్థలు ఎలా నివారించవచ్చు?
    • అనైతిక శిక్షణ డేటా యొక్క ఇతర సంభావ్య పరిణామాలు ఏమిటి?