సమస్యాత్మక శిక్షణ డేటా: AI పక్షపాత డేటాను బోధించినప్పుడు
సమస్యాత్మక శిక్షణ డేటా: AI పక్షపాత డేటాను బోధించినప్పుడు
సమస్యాత్మక శిక్షణ డేటా: AI పక్షపాత డేటాను బోధించినప్పుడు
- రచయిత గురించి:
- అక్టోబర్ 14, 2022
అంతర్దృష్టి సారాంశం
మనం నేర్చుకునేది మరియు అంతర్గతీకరించేది మనమే; ఈ సూచన కృత్రిమ మేధస్సు (AI)కి కూడా వర్తిస్తుంది. అసంపూర్ణ, పక్షపాత మరియు అనైతిక డేటాతో అందించబడిన మెషిన్ లెర్నింగ్ (ML) నమూనాలు చివరికి సమస్యాత్మక నిర్ణయాలు మరియు సూచనలను చేస్తాయి. పరిశోధకులు జాగ్రత్తగా లేకుంటే ఈ శక్తివంతమైన అల్గారిథమ్లు వినియోగదారుల నైతికత మరియు అవగాహనలను ప్రభావితం చేయవచ్చు.
సమస్యాత్మక శిక్షణ డేటా సందర్భం
2010ల నుండి, శిక్షణ డేటాసెట్లను అనుచితమైన కంటెంట్తో లేదా అనైతికంగా సేకరించినందుకు పరిశోధన బృందాలు పరిశీలించబడ్డాయి. ఉదాహరణకు, 2016లో, Microsoft యొక్క MS-Celeb-1M డేటాబేస్ 10 విభిన్న ప్రముఖుల 100,000 మిలియన్ చిత్రాలను కలిగి ఉంది. అయితే, తదుపరి తనిఖీపై, కరస్పాండెంట్లు చాలా ఫోటోలు యజమాని యొక్క సమ్మతి లేదా తెలియకుండా వివిధ వెబ్సైట్ల నుండి తీసిన సాధారణ వ్యక్తులని కనుగొన్నారు.
ఈ అవగాహన ఉన్నప్పటికీ, డేటాసెట్ను Facebook మరియు SenseTime వంటి ప్రధాన కంపెనీలు ఉపయోగించడాన్ని కొనసాగించాయి, ఇది రాష్ట్ర పోలీసులకు లింక్లతో కూడిన చైనీస్ ముఖ గుర్తింపు సంస్థ. అదేవిధంగా, డ్యూక్ యూనివర్సిటీ క్యాంపస్ (డ్యూక్ఎమ్టిఎంసి)లో నడిచే వ్యక్తుల చిత్రాలను కలిగి ఉన్న డేటాసెట్ కూడా సమ్మతిని సేకరించలేదు. చివరికి, రెండు డేటాసెట్లు తీసివేయబడ్డాయి.
సమస్యాత్మక శిక్షణ డేటా యొక్క హానికరమైన ప్రభావాలను హైలైట్ చేయడానికి, మసాచుసెట్స్ ఇన్స్టిట్యూట్ ఆఫ్ టెక్నాలజీ (MIT) పరిశోధకులు నార్మన్ అనే AIని సృష్టించారు, వారు గ్రాఫిక్ హింసను హైలైట్ చేసే సబ్రెడిట్ నుండి ఇమేజ్ క్యాప్షనింగ్ చేయడం నేర్పించారు. సాంప్రదాయిక డేటాను ఉపయోగించి శిక్షణ పొందిన న్యూరల్ నెట్వర్క్కు వ్యతిరేకంగా బృందం నార్మన్ను ఉంచింది. పరిశోధకులు రెండు సిస్టమ్లను రోర్స్చాచ్ ఇంక్బ్లాట్లతో సరఫరా చేశారు మరియు వారు చూసిన వాటిని వివరించమని AIలను కోరారు. ఫలితాలు అద్భుతమైనవి: స్టాండర్డ్ న్యూరల్ నెట్వర్క్లో "బేస్బాల్ గ్లోవ్ యొక్క నలుపు మరియు తెలుపు ఫోటో" కనిపించింది, నార్మన్ "పట్టపగలు మెషిన్ గన్తో హత్య చేయబడిన వ్యక్తి"ని గమనించాడు. AI స్వయంచాలకంగా పక్షపాతంతో ఉండదని ఈ ప్రయోగం నిరూపించింది, అయితే ఆ డేటా ఇన్పుట్ పద్ధతులు మరియు వాటి సృష్టికర్తల ఉద్దేశాలు AI ప్రవర్తనను గణనీయంగా ప్రభావితం చేయగలవు.
విఘాతం కలిగించే ప్రభావం
2021లో, పరిశోధనా సంస్థ అలెన్ ఇన్స్టిట్యూట్ ఫర్ AI ఏ నైతిక ప్రశ్నకైనా సమాధానాల కోసం అల్గారిథమిక్గా ప్రతిస్పందనలను రూపొందించే ML సాఫ్ట్వేర్ అయిన Ask Delphiని సృష్టించింది. AI క్రమంగా మరింత శక్తివంతంగా మరియు సుపరిచితమైనదిగా మారుతుందని ప్రాజెక్ట్ వెనుక ఉన్న పరిశోధకులు పేర్కొన్నారు, కాబట్టి శాస్త్రవేత్తలు ఈ ML సిస్టమ్స్ నీతిని బోధించాల్సిన అవసరం ఉంది. యునికార్న్ ML మోడల్ డెల్ఫీకి పునాది. టెక్స్ట్ స్ట్రింగ్కు అత్యంత సంభావ్య ముగింపును ఎంచుకోవడం వంటి "కామన్ సెన్స్" రీజనింగ్ని అమలు చేయడానికి ఇది రూపొందించబడింది.
ఇంకా, పరిశోధకులు 'కామన్సెన్స్ నార్మ్ బ్యాంక్.' ఈ బ్యాంక్ Reddit వంటి ప్రదేశాల నుండి ప్రజల నైతిక మూల్యాంకనానికి సంబంధించిన 1.7 మిలియన్ ఉదాహరణలను కలిగి ఉంది. ఫలితంగా, డెల్ఫీ యొక్క అవుట్పుట్ మిశ్రమ బ్యాగ్గా ఉంది. డెల్ఫీ కొన్ని ప్రశ్నలకు సహేతుకంగా సమాధానమిచ్చింది (ఉదా., స్త్రీ పురుషుల మధ్య సమానత్వం), అయితే, కొన్ని అంశాలపై, డెల్ఫీ పూర్తిగా అభ్యంతరకరంగా ఉంది (ఉదా., ప్రజలను సంతోషపరిచేంత వరకు మారణహోమం ఆమోదయోగ్యమైనది).
అయినప్పటికీ, Delphi AI దాని అనుభవాల నుండి నేర్చుకుంటుంది మరియు ఫీడ్బ్యాక్ ఆధారంగా దాని సమాధానాలను అప్డేట్ చేస్తున్నట్లు కనిపిస్తోంది. కొంతమంది నిపుణులు పరిశోధన యొక్క పబ్లిక్ మరియు బహిరంగ వినియోగం వల్ల ఇబ్బంది పడ్డారు, మోడల్ పురోగతిలో ఉంది మరియు అనియత సమాధానాలకు అవకాశం ఉంది. ఆస్క్ డెల్ఫీ అరంగేట్రం చేసినప్పుడు, ఇల్లినాయిస్ టెక్లోని హిస్టరీ ప్రొఫెసర్ మార్ హిక్స్, జెండర్, లేబర్ మరియు కంప్యూటింగ్ చరిత్రలో ప్రత్యేకత కలిగి ఉన్నారు, డెల్ఫీ వెంటనే చాలా అనైతిక సమాధానాలను అందించారని, దీనిని ఉపయోగించమని ప్రజలను ఆహ్వానించడం పరిశోధకుల నిర్లక్ష్యం అని అన్నారు. పూర్తి అర్ధంలేనిది.
2023 లో, మిగతా ప్రపంచం AI ఇమేజ్ జనరేటర్లలో పక్షపాతంపై అధ్యయనం నిర్వహించింది. మిడ్జర్నీని ఉపయోగించి, రూపొందించబడిన చిత్రాలు ఇప్పటికే ఉన్న మూస పద్ధతులను ధృవీకరిస్తున్నాయని పరిశోధకులు కనుగొన్నారు. అదనంగా, OpenAI దాని DALL-E 2 ఇమేజ్ జనరేషన్ మోడల్ కోసం శిక్షణ డేటాకు ఫిల్టర్లను వర్తింపజేసినప్పుడు, ఇది అనుకోకుండా లింగానికి సంబంధించిన పక్షపాతాలను తీవ్రతరం చేసింది.
సమస్యాత్మక శిక్షణ డేటా యొక్క చిక్కులు
సమస్యాత్మక శిక్షణ డేటా యొక్క విస్తృత చిక్కులు వీటిని కలిగి ఉండవచ్చు:
- పరిశోధన ప్రాజెక్ట్లు, సేవలు మరియు ప్రోగ్రామ్ డెవలప్మెంట్లో పక్షపాతాలను బలోపేతం చేసింది. సమస్యాత్మక శిక్షణ డేటా ముఖ్యంగా చట్టాన్ని అమలు చేసే మరియు బ్యాంకింగ్ సంస్థలలో ఉపయోగించినట్లయితే (ఉదా., ప్రతికూలంగా మైనారిటీ సమూహాలను లక్ష్యంగా చేసుకోవడం).
- శిక్షణ డేటా పెరుగుదల మరియు కలగలుపులో పెరిగిన పెట్టుబడి మరియు అభివృద్ధి.
- కార్పొరేషన్లు వివిధ వాణిజ్య కార్యక్రమాల కోసం శిక్షణ డేటాను అభివృద్ధి చేయడం, విక్రయించడం మరియు ఉపయోగించడాన్ని పరిమితం చేయడానికి మరిన్ని ప్రభుత్వాలు నిబంధనలను పెంచుతున్నాయి.
- AI సిస్టమ్ల ద్వారా ఆధారితమైన ప్రాజెక్ట్లు నైతిక మార్గదర్శకాలను అనుసరిస్తున్నాయని నిర్ధారించుకోవడానికి మరిన్ని వ్యాపారాలు నైతిక విభాగాలను ఏర్పాటు చేస్తున్నాయి.
- ఆరోగ్య సంరక్షణలో AI వినియోగంపై మెరుగుపరిచిన పరిశీలన కఠినమైన డేటా పాలనకు దారి తీస్తుంది, రోగి గోప్యత మరియు నైతిక AI అప్లికేషన్ను నిర్ధారిస్తుంది.
- AI అక్షరాస్యతను పెంపొందించడానికి ప్రభుత్వ మరియు ప్రైవేట్ రంగ సహకారాన్ని పెంపొందించడం, AI ఆధిపత్య భవిష్యత్తు కోసం శ్రామిక శక్తిని నైపుణ్యాలతో సన్నద్ధం చేయడం.
- AI పారదర్శకత సాధనాల కోసం డిమాండ్ పెరగడం, వినియోగదారుల అవగాహన మరియు నమ్మకం కోసం AI సిస్టమ్లలో వివరణాత్మకతకు ప్రాధాన్యతనిచ్చే ప్రముఖ కంపెనీలు.
పరిగణించవలసిన ప్రశ్నలు
- సమస్యాత్మక శిక్షణ డేటాను ఉపయోగించకుండా సంస్థలు ఎలా నివారించవచ్చు?
- అనైతిక శిక్షణ డేటా యొక్క ఇతర సంభావ్య పరిణామాలు ఏమిటి?
అంతర్దృష్టి సూచనలు
ఈ అంతర్దృష్టి కోసం క్రింది ప్రసిద్ధ మరియు సంస్థాగత లింక్లు సూచించబడ్డాయి: