Quantumrun

BILLEDKREDIT:

iStock

Problematiske træningsdata: Når AI undervises i biased data

Kunstige intelligenssystemer introduceres nogle gange med subjektive data, der kan påvirke, hvordan det handler og træffer beslutninger.

Forfatter:
Forfatter navn
Quantumrun Foresight
Oktober 14, 2022

Oversigt over indsigt

Vi er, hvad vi lærer og internaliserer; dette ord gælder også for kunstig intelligens (AI). Maskinlæringsmodeller (ML) fodret med ufuldstændige, forudindtaget og uetiske data vil i sidste ende tage problematiske beslutninger og forslag. Disse kraftfulde algoritmer kan så påvirke brugernes moral og opfattelser, hvis forskerne ikke er forsigtige.

Problematisk træningsdatakontekst

Siden 2010'erne er forskerhold blevet undersøgt for at bruge træningsdatasæt med uegnet indhold eller samlet uetisk. For eksempel omfattede Microsofts MS-Celeb-2016M-database i 1 10 millioner billeder af 100,000 forskellige berømtheder. Ved yderligere inspektion opdagede korrespondenter dog, at mange billeder var af almindelige mennesker hentet fra forskellige hjemmesider uden ejerens samtykke eller viden.

På trods af denne erkendelse blev datasættet fortsat brugt af store virksomheder som Facebook og SenseTime, et kinesisk ansigtsgenkendelsesfirma med links til statspolitiet. Tilsvarende indsamlede et datasæt, der indeholdt billeder af mennesker, der gik på Duke Universitys campus (DukeMTMC), heller ikke samtykke. Til sidst blev begge datasæt fjernet.

For at fremhæve de skadelige virkninger af problematiske træningsdata skabte forskere ved Massachusetts Institute of Technology (MIT) en AI kaldet Norman, som de lærte at udføre billedtekster fra en subreddit, der fremhævede grafisk vold. Holdet placerede derefter Norman mod et neuralt netværk trænet ved hjælp af konventionelle data. Forskerne forsynede begge systemer med Rorschach blækklatter og bad AI'erne om at beskrive, hvad de så. Resultaterne var forbløffende: hvor det standardneurale netværk så "et sort-hvidt foto af en baseballhandske", observerede Norman "en mand myrdet med maskingevær ved højlys dag." Eksperimentet viste, at AI ikke automatisk er forudindtaget, men disse datainputmetoder og deres skaberes motiver kan påvirke en AIs adfærd betydeligt.

Forstyrrende påvirkning

I 2021 skabte forskningsorganisationen Allen Institute for AI Ask Delphi, en ML-software, der algoritmisk genererer svar til svar på ethvert etisk spørgsmål. Forskerne bag projektet udtalte, at AI gradvist bliver mere kraftfuldt og velkendt, så forskerne er nødt til at lære disse ML-systemer etik. Unicorn ML-modellen er grundlaget for Delphi. Det blev formuleret til at udføre "sund fornuft" ræsonnement, såsom at vælge den mest sandsynlige slutning på en tekststreng.

Desuden brugte forskere 'Commonsense Norm Bank'. Denne bank består af 1.7 millioner eksempler på folks etiske vurderinger fra steder som Reddit. Som et resultat var Delphis output en blandet pose. Delphi besvarede nogle spørgsmål rimeligt (f.eks. ligestilling mellem mænd og kvinder), hvorimod Delphi på nogle emner var direkte stødende (f.eks. er folkedrab acceptabelt, så længe det gjorde folk glade).

Delphi AI lærer dog af sine erfaringer og ser ud til at opdatere sine svar baseret på feedback. Nogle eksperter er bekymrede over forskningens offentlige og åbne brug, i betragtning af at modellen er i gang og er tilbøjelig til at få uberegnelige svar. Da Ask Delphi debuterede, sagde Mar Hicks, en professor i historie ved Illinois Tech med speciale i køn, arbejdskraft og computerhistorie, at det var uagtsomt af forskere at invitere folk til at bruge det, i betragtning af at Delphi straks gav ekstremt uetiske svar og nogle komplet nonsens.

I 2023, blev Resten af verden gennemførte en undersøgelse om bias i AI-billedgeneratorer. Ved hjælp af Midjourney opdagede forskere, at de genererede billeder bekræfter eksisterende stereotyper. Når OpenAI anvendte filtre til træningsdataene for sin DALL-E 2-billedgenereringsmodel, forstærkede det desuden utilsigtet skævheder relateret til køn.

Implikationer af problematiske træningsdata

Bredere implikationer af problematiske træningsdata kan omfatte:

Forstærkede skævheder i forskningsprojekter, tjenester og programudvikling. Problematiske uddannelsesdata er især bekymrende, hvis de bruges i retshåndhævelses- og bankinstitutioner (f.eks. negativt målrettet mod minoritetsgrupper).
Øget investering og udvikling i vækst og sortiment af træningsdata.
Flere regeringer øger reglerne for at begrænse, hvordan virksomheder udvikler, sælger og bruger træningsdata til forskellige kommercielle initiativer.
Flere virksomheder etablerer etiske afdelinger for at sikre, at projekter drevet af AI-systemer følger etiske retningslinjer.
Forbedret kontrol af brugen af AI i sundhedsvæsenet, der fører til strengere datastyring, der sikrer patientens privatliv og etisk AI-anvendelse.
Øget samarbejde mellem den offentlige og den private sektor for at fremme AI-færdigheder og udstyre arbejdsstyrken med færdigheder til en AI-domineret fremtid.
Stigende efterspørgsel efter AI-gennemsigtighedsværktøjer, hvilket fører til, at virksomheder prioriterer forklarlighed i AI-systemer for forbrugernes forståelse og tillid.