Problematični podaci o obuci: Kada se AI uči pristrasnim podacima

KREDIT ZA SLIKU:
Image credit
iStock

Problematični podaci o obuci: Kada se AI uči pristrasnim podacima

Problematični podaci o obuci: Kada se AI uči pristrasnim podacima

Tekst podnaslova
Sistemi umjetne inteligencije se ponekad upoznaju sa subjektivnim podacima koji mogu utjecati na to kako djeluje i donosi odluke.
    • Autor:
    • Ime autora
      Quantumrun Foresight
    • Oktobar 14, 2022

    Sažetak uvida

    Mi smo ono što učimo i internalizujemo; ova izreka se odnosi i na vještačku inteligenciju (AI). Modeli mašinskog učenja (ML) hranjeni nepotpunim, pristrasnim i neetičkim podacima na kraju će donijeti problematične odluke i prijedloge. Ovi moćni algoritmi mogu onda uticati na moral i percepciju korisnika ako istraživači nisu pažljivi.

    Problematičan kontekst podataka o obuci

    Od 2010-ih, istraživački timovi su pod istragom da koriste skupove podataka za obuku s neprikladnim sadržajem ili prikupljene neetički. Na primjer, 2016. godine, Microsoftova baza podataka MS-Celeb-1M uključivala je 10 miliona slika 100,000 različitih poznatih ličnosti. Međutim, nakon daljeg pregleda, dopisnici su otkrili da su mnoge fotografije običnih ljudi izvučene sa raznih web stranica bez pristanka ili znanja vlasnika.

    Uprkos ovoj spoznaji, skup podataka nastavile su koristiti velike kompanije kao što su Facebook i SenseTime, kineska kompanija za prepoznavanje lica koja ima veze s državnom policijom. Slično, skup podataka koji sadrži slike ljudi koji šetaju kampusom Duke univerziteta (DukeMTMC) također nije prikupio pristanak. Na kraju su oba skupa podataka uklonjena. 

    Kako bi istakli štetne efekte problematičnih podataka o obuci, istraživači sa Massachusetts Institute of Technology (MIT) kreirali su AI pod nazivom Norman kojeg su naučili da izvodi titlove na slikama iz subreddita koji je naglašavao grafičko nasilje. Tim je zatim postavio Normana protiv neuronske mreže koja je obučena korištenjem konvencionalnih podataka. Istraživači su oba sistema snabdili Rorschachovim mrljama mastila i tražili od AI da opišu ono što su vidjeli. Rezultati su bili zapanjujući: tamo gde je standardna neuronska mreža videla "crno-belu fotografiju rukavice za bejzbol", Norman je primetio "čoveka ubijenog mitraljezom usred bela dana". Eksperiment je pokazao da AI nije automatski pristrasan, ali te metode unosa podataka i motivi njihovih kreatora mogu značajno utjecati na ponašanje umjetne inteligencije.

    Ometajući uticaj

    Godine 2021. istraživačka organizacija Allen Institute for AI kreirala je Ask Delphi, softver za ML koji algoritamski generiše odgovore za odgovore na bilo koje etičko pitanje. Istraživači koji stoje iza projekta izjavili su da AI postepeno postaje moćniji i poznatiji, tako da naučnici treba da podučavaju ove ML sisteme etici. Unicorn ML model je osnova Delphi-ja. Formuliran je da provodi "zdravorazumsko" razmišljanje, kao što je odabir najvjerovatnijeg završetka tekstualnog niza. 

    Nadalje, istraživači su koristili 'Commonsense Norm Bank'. Ova banka se sastoji od 1.7 miliona primjera etičkih procjena ljudi sa mjesta kao što je Reddit. Kao rezultat toga, Delphijev rezultat bio je mješovit. Delphi je razumno odgovorio na neka pitanja (npr. jednakost između muškaraca i žena), dok je, na neke teme, Delphi bio potpuno uvredljiv (npr. genocid je prihvatljiv sve dok je usrećio ljude).

    Međutim, Delphi AI uči iz svog iskustva i čini se da ažurira svoje odgovore na osnovu povratnih informacija. Neki stručnjaci su zabrinuti zbog javnosti i otvorene upotrebe istraživanja, s obzirom da je model u toku i da je sklon pogrešnim odgovorima. Kada je Ask Delphi debitovao, Mar Hicks, profesor istorije na Illinois Tech-u specijalizovan za rod, rad i istoriju računarstva, rekao je da je bilo nemarno od strane istraživača da pozivaju ljude da ga koriste, s obzirom da je Delphi odmah dao krajnje neetičke odgovore i neke potpuna glupost. 

    U 2023, Ostatak svijeta sproveo studiju o pristranosti u generatorima AI slike. Koristeći Midjourney, istraživači su otkrili da generirane slike potvrđuju postojeće stereotipe. Osim toga, kada je OpenAI primijenio filtere na podatke o obuci za svoj model generiranja slike DALL-E 2, nenamjerno je pojačao predrasude vezane za spol.

    Implikacije problematičnih podataka o obuci

    Šire implikacije problematičnih podataka o obuci mogu uključivati: 

    • Pojačane predrasude u istraživačkim projektima, uslugama i razvoju programa. Problematični podaci o obuci su posebno zabrinjavajući ako se koriste u institucijama za provođenje zakona i bankarskim institucijama (npr. negativno ciljanje na manjinske grupe).
    • Povećana ulaganja i razvoj u rast i asortiman podataka o obuci. 
    • Sve više vlada povećava propise kako bi ograničile način na koji korporacije razvijaju, prodaju i koriste podatke o obuci za različite komercijalne inicijative.
    • Više preduzeća osniva etička odjeljenja kako bi osiguralo da projekti pokreću AI sistemi slijede etičke smjernice.
    • Pojačana kontrola upotrebe AI u zdravstvu dovodi do strožeg upravljanja podacima, osiguravajući privatnost pacijenata i etičku primjenu AI.
    • Povećana saradnja javnog i privatnog sektora kako bi se podstakla AI pismenost, opremajući radnu snagu vještinama za budućnost kojom dominira AI.
    • Povećana potražnja za alatima za transparentnost AI, što navodi kompanije da daju prioritet objašnjivosti u AI sistemima radi razumijevanja i povjerenja potrošača.

    Pitanja koja treba razmotriti

    • Kako organizacije mogu izbjeći korištenje problematičnih podataka o obuci?
    • Koje su druge potencijalne posljedice neetičkih podataka o obuci?