Quantumrun

KREDIT ZA SLIKO:

iStock

Problematični podatki o usposabljanju: Ko se umetna inteligenca uči pristranskih podatkov

Sistemi umetne inteligence so včasih predstavljeni s subjektivnimi podatki, ki lahko vplivajo na delovanje in sprejemanje odločitev.

Avtor:
ime avtorja
Quantumrun Foresight
Oktober 14, 2022

Povzetek vpogleda

Smo tisto, kar se naučimo in ponotranjimo; ta izrek velja tudi za umetno inteligenco (AI). Modeli strojnega učenja (ML), ki se napajajo z nepopolnimi, pristranskimi in neetičnimi podatki, bodo na koncu povzročili problematične odločitve in predloge. Ti močni algoritmi lahko nato vplivajo na moralo in dojemanje uporabnikov, če raziskovalci niso previdni.

Problematičen kontekst podatkov o usposabljanju

Od leta 2010 so bile raziskovalne skupine pod drobnogledom zaradi uporabe naborov podatkov za usposabljanje z neprimerno vsebino ali zbranih neetično. Na primer, leta 2016 je Microsoftova zbirka podatkov MS-Celeb-1M vključevala 10 milijonov slik 100,000 različnih zvezdnikov. Vendar pa so po nadaljnjem pregledu dopisniki odkrili, da je bilo veliko fotografij navadnih ljudi, povzetih z različnih spletnih mest brez soglasja ali vednosti lastnika.

Kljub temu spoznanju so nabor podatkov še naprej uporabljala velika podjetja, kot sta Facebook in SenseTime, kitajsko podjetje za prepoznavanje obrazov, ki je povezano z državno policijo. Podobno nabor podatkov, ki vsebuje slike ljudi, ki hodijo po kampusu univerze Duke (DukeMTMC), prav tako ni zbiral soglasja. Sčasoma sta bila oba nabora podatkov odstranjena.

Da bi poudarili škodljive učinke problematičnih podatkov o usposabljanju, so raziskovalci na Tehnološkem inštitutu v Massachusettsu (MIT) ustvarili umetno inteligenco, imenovano Norman, ki so jo naučili izvajati podnapise slik iz subreddita, ki je poudarjal grafično nasilje. Ekipa je nato postavila Normana proti nevronski mreži, ki je bila usposobljena z uporabo običajnih podatkov. Raziskovalci so oba sistema opremili z Rorschachovimi madeži črnila in prosili AI, naj opišejo, kaj so videli. Rezultati so bili osupljivi: kjer je standardna nevronska mreža videla "črno-belo fotografijo bejzbolske rokavice," je Norman opazil "moškega, umorjenega s strojnico sredi belega dne." Poskus je pokazal, da umetna inteligenca ni samodejno pristranska, vendar lahko te metode vnosa podatkov in motivi njihovih ustvarjalcev pomembno vplivajo na vedenje umetne inteligence.

Moteč vpliv

Leta 2021 je raziskovalna organizacija Allen Institute for AI ustvarila Ask Delphi, programsko opremo ML, ki algoritemsko generira odgovore za odgovore na katero koli etično vprašanje. Raziskovalci, ki stojijo za projektom, so izjavili, da umetna inteligenca postopoma postaja močnejša in poznanejša, zato morajo znanstveniki učiti te sisteme ML o etiki. Model Unicorn ML je temelj Delphija. Formuliran je bil za izvajanje "zdravorazumskega" sklepanja, kot je izbira najverjetnejšega konca besedilnega niza.

Poleg tega so raziskovalci uporabili "Commonsense Norm Bank". Ta banka je sestavljena iz 1.7 milijona primerov etičnih ocen ljudi s krajev, kot je Reddit. Posledično je bil rezultat Delphija mešan. Delphi je na nekatera vprašanja odgovoril razumno (npr. Enakost med moškimi in ženskami), medtem ko je bil pri nekaterih temah Delphi naravnost žaljiv (npr. Genocid je sprejemljiv, dokler je ljudi osrečeval).

Vendar pa se AI Delphi uči iz svojih izkušenj in zdi se, da posodablja svoje odgovore na podlagi povratnih informacij. Nekatere strokovnjake moti javna in odprta uporaba raziskave, saj model še poteka in je nagnjen k napačnim odgovorom. Ko je Ask Delphi debitiral, je Mar Hicks, profesor zgodovine na Illinois Tech, specializiran za spol, delo in zgodovino računalništva, dejal, da je bilo malomarno od raziskovalcev, da so ljudi povabili k uporabi, saj je Delphi takoj ponudil izjemno neetične odgovore in nekatere popolna neumnost.

V 2023, Ostali svet je izvedel študijo o pristranskosti pri generatorjih slik AI. Z uporabo Midjourneyja so raziskovalci odkrili, da ustvarjene slike potrjujejo obstoječe stereotipe. Poleg tega je OpenAI, ko je uporabil filtre za podatke o usposabljanju za svoj model generiranja slik DALL-E 2, nenamerno okrepil pristranskosti, povezane s spolom.

Posledice problematičnih podatkov o usposabljanju

Širše posledice problematičnih podatkov o usposabljanju lahko vključujejo:

Okrepljene pristranskosti v raziskovalnih projektih, storitvah in razvoju programov. Problematični podatki o usposabljanju so še posebej zaskrbljujoči, če se uporabljajo v organih kazenskega pregona in bančnih institucijah (npr. negativno usmerjeni proti manjšinskim skupinam).
Povečane naložbe in razvoj v rast in izbor podatkov o usposabljanju.
Več vlad povečuje predpise, da bi omejile, kako korporacije razvijajo, prodajajo in uporabljajo podatke o usposabljanju za različne komercialne pobude.
Več podjetij ustanavlja oddelke za etiko, da bi zagotovila, da projekti, ki jih poganjajo sistemi umetne inteligence, sledijo etičnim smernicam.
Okrepljen nadzor nad uporabo umetne inteligence v zdravstvu, ki vodi k strožjemu upravljanju podatkov, zagotavljanju zasebnosti pacientov in etični uporabi umetne inteligence.
Okrepljeno sodelovanje javnega in zasebnega sektorja za spodbujanje pismenosti z umetno inteligenco, opremljanje delovne sile z veščinami za prihodnost, v kateri prevladuje umetna inteligenca.
Povečanje povpraševanja po orodjih za preglednost AI, zaradi česar podjetja dajejo prednost razložljivosti v sistemih AI za razumevanje in zaupanje potrošnikov.

Vprašanja, ki jih je treba upoštevati

Kako se lahko organizacije izognejo uporabi problematičnih podatkov o usposabljanju?
Kakšne so druge možne posledice podatkov o neetičnem usposabljanju?

Dodaj na seznam