Quantumrun

BILDKREDIT:

iStock

Problematisk träningsdata: När AI lärs ut partisk data

System för artificiell intelligens introduceras ibland med subjektiv data som kan påverka hur den agerar och fattar beslut.

Författare:
författarnamn
Quantumrun Framsyn
Oktober 14, 2022

Insiktssammanfattning

Vi är vad vi lär oss och internaliserar; detta påstående gäller även för artificiell intelligens (AI). Maskininlärningsmodeller (ML) matade med ofullständiga, partiska och oetiska data kommer i slutändan att fatta problematiska beslut och förslag. Dessa kraftfulla algoritmer kan sedan påverka användarnas moral och uppfattningar om forskarna inte är försiktiga.

Problematisk träningsdatakontext

Sedan 2010-talet har forskarlag granskats för att ha använt utbildningsdatauppsättningar med olämpligt innehåll eller samlat in oetiskt. Till exempel, 2016 inkluderade Microsofts MS-Celeb-1M-databas 10 miljoner bilder av 100,000 XNUMX olika kändisar. Men vid ytterligare inspektion upptäckte korrespondenter att många bilder var på vanliga människor som hämtats från olika webbplatser utan ägarens medgivande eller vetskap.

Trots denna insikt fortsatte datauppsättningen att användas av stora företag som Facebook och SenseTime, ett kinesiskt ansiktsigenkänningsföretag med kopplingar till den statliga polisen. På samma sätt samlade inte en datauppsättning som innehöll bilder på människor som gick på Duke Universitys campus (DukeMTMC) in samtycke. Så småningom togs båda datauppsättningarna bort.

För att belysa de skadliga effekterna av problematiska träningsdata skapade forskare vid Massachusetts Institute of Technology (MIT) en AI som heter Norman som de lärde ut att utföra bildtextning från en subreddit som lyfte fram grafiskt våld. Teamet placerade sedan Norman mot ett neuralt nätverk tränat med hjälp av konventionella data. Forskarna försåg båda systemen med Rorschach-bläckfläckar och bad AI:erna att beskriva vad de såg. Resultaten var fantastiska: där det vanliga neurala nätverket såg "ett svartvitt foto av en basebollhandske", observerade Norman "en man mördad med maskingevär mitt på ljusa dagen." Experimentet visade att AI inte är automatiskt partisk, men dessa datainmatningsmetoder och deras skapares motiv kan avsevärt påverka en AI:s beteende.

Störande inverkan

År 2021 skapade forskningsorganisationen Allen Institute for AI Ask Delphi, en ML-programvara som algoritmiskt genererar svar för svar på alla etiska frågor. Forskarna bakom projektet konstaterade att AI gradvis blir kraftfullare och mer bekant, så forskare måste lära ut dessa ML-system etik. Unicorn ML-modellen är grunden för Delphi. Den formulerades för att föra "sunt förnuft"-resonemang, som att välja det mest sannolika slutet på en textsträng.

Dessutom använde forskare "Commonsense Norm Bank". Denna bank består av 1.7 miljoner exempel på människors etiska utvärderingar från platser som Reddit. Som ett resultat var Delphis produktion blandad. Delphi besvarade några frågor rimligt (t.ex. jämställdhet mellan män och kvinnor), medan Delphi i vissa ämnen var direkt kränkande (t.ex. folkmord är acceptabelt så länge det gjorde människor lyckliga).

Delphi AI lär sig dock av sina erfarenheter och verkar uppdatera sina svar baserat på feedback. Vissa experter är oroliga över forskningens offentliga och öppna användning, med tanke på att modellen är på gång och är benägen att få oberäkneliga svar. När Ask Delphi debuterade sa Mar Hicks, en professor i historia vid Illinois Tech som specialiserat sig på genus, arbete och datorhistoria, att det var försumligt av forskare att bjuda in människor att använda det, med tanke på att Delphi omedelbart gav extremt oetiska svar och vissa fullständigt nonsens.

2023, Övriga världen genomförde en studie om bias i AI-bildgeneratorer. Med hjälp av Midjourney upptäckte forskare att de genererade bilderna bekräftar befintliga stereotyper. Dessutom, när OpenAI tillämpade filter på träningsdata för sin bildgenereringsmodell DALL-E 2, intensifierade det oavsiktligt fördomar relaterade till kön.

Konsekvenser av problematiska träningsdata

Vidare konsekvenser av problematisk träningsdata kan inkludera:

Förstärkta fördomar i forskningsprojekt, tjänster och programutveckling. Problematiska utbildningsdata är särskilt oroande om de används i brottsbekämpande och bankinstitutioner (t.ex. negativ inriktning på minoritetsgrupper).
Ökad investering och utveckling i tillväxt och sortiment av träningsdata.
Fler regeringar ökar reglerna för att begränsa hur företag utvecklar, säljer och använder utbildningsdata för olika kommersiella initiativ.
Fler företag etablerar etiska avdelningar för att säkerställa att projekt som drivs av AI-system följer etiska riktlinjer.
Förbättrad granskning av användningen av AI i hälso- och sjukvården leder till striktare datastyrning, säkerställer patientens integritet och etisk AI-tillämpning.
Ökat samarbete inom den offentliga och privata sektorn för att främja AI-kunskaper och utrusta arbetskraften med kompetens för en AI-dominerad framtid.
Ökad efterfrågan på AI-transparensverktyg, vilket leder till att företag prioriterar förklarabarhet i AI-system för konsumenternas förståelse och förtroende.