Problematični podaci za obuku: Kada se AI uči pristranim podacima

KREDIT ZA SLIKE:
Slika kreditne
Istockphoto

Problematični podaci za obuku: Kada se AI uči pristranim podacima

Problematični podaci za obuku: Kada se AI uči pristranim podacima

Tekst podnaslova
Sustavi umjetne inteligencije ponekad se uvode sa subjektivnim podacima koji mogu utjecati na njihovo djelovanje i donošenje odluka.
    • Autor:
    • ime autora
      Quantumrun Foresight
    • Listopada 14, 2022

    Sažetak uvida

    Mi smo ono što učimo i internaliziramo; ova se izreka također odnosi na umjetnu inteligenciju (AI). Modeli strojnog učenja (ML) hranjeni nepotpunim, pristranim i neetičnim podacima u konačnici će donijeti problematične odluke i prijedloge. Ovi moćni algoritmi tada mogu utjecati na moral i percepciju korisnika ako istraživači ne budu oprezni.

    Problematičan kontekst podataka o treningu

    Od 2010-ih istraživački timovi bili su pod lupom zbog upotrebe skupova podataka za obuku s neprikladnim sadržajem ili prikupljenih neetički. Na primjer, 2016. Microsoftova MS-Celeb-1M baza podataka uključivala je 10 milijuna slika 100,000 različitih slavnih osoba. Međutim, daljnjom inspekcijom dopisnici su otkrili da su mnoge fotografije običnih ljudi preuzete s raznih web stranica bez pristanka ili znanja vlasnika.

    Unatoč ovoj spoznaji, skup podataka nastavile su koristiti velike tvrtke poput Facebooka i SenseTimea, kineske tvrtke za prepoznavanje lica koja je povezana s državnom policijom. Slično tome, skup podataka koji sadrži slike ljudi koji hodaju kampusom Sveučilišta Duke (DukeMTMC) također nije prikupio pristanak. Na kraju su oba skupa podataka uklonjena. 

    Kako bi istaknuli štetne učinke problematičnih podataka o obuci, istraživači s Massachusetts Institute of Technology (MIT) stvorili su umjetnu inteligenciju nazvanu Norman koju su naučili da izvodi opise slika iz subreddita koji je isticao grafičko nasilje. Tim je zatim stavio Normana nasuprot neuronske mreže trenirane korištenjem konvencionalnih podataka. Istraživači su oba sustava opskrbili Rorschachovim mrljama od tinte i zamolili AI da opišu što su vidjeli. Rezultati su bili zapanjujući: tamo gdje je standardna neuronska mreža vidjela "crno-bijelu fotografiju rukavice za bejzbol", Norman je promatrao "čovjeka ubijenog mitraljezom usred bijela dana". Eksperiment je pokazao da umjetna inteligencija nije automatski pristrana, ali te metode unosa podataka i motivi njihovih kreatora mogu značajno utjecati na ponašanje umjetne inteligencije.

    Razarajući učinak

    Godine 2021. istraživačka organizacija Allen Institute for AI stvorila je Ask Delphi, ML softver koji algoritamski generira odgovore za odgovore na bilo koje etičko pitanje. Istraživači koji stoje iza projekta izjavili su da umjetna inteligencija postupno postaje moćnija i poznatija, pa znanstvenici moraju poučavati te ML sustave etici. Model Unicorn ML je temelj Delphija. Formuliran je za provođenje "zdravorazumskog" zaključivanja, kao što je odabir najvjerojatnijeg završetka tekstualnog niza. 

    Nadalje, istraživači su koristili 'Commonsense Norm Bank'. Ova se banka sastoji od 1.7 milijuna primjera etičkih procjena ljudi s mjesta poput Reddita. Kao rezultat toga, Delphijev rezultat bio je mješovit. Delphi je na neka pitanja odgovorio razumno (npr. jednakost između muškaraca i žena), dok je u nekim temama Delphi bio potpuno uvredljiv (npr. genocid je prihvatljiv sve dok je ljude činio sretnima).

    Međutim, Delphi AI uči iz svojih iskustava i čini se da ažurira svoje odgovore na temelju povratnih informacija. Neke stručnjake muči javna i otvorena uporaba istraživanja, budući da je model u tijeku i sklon je nepredvidivim odgovorima. Kada je Ask Delphi debitirao, Mar Hicks, profesorica povijesti na Illinois Techu, specijalizirana za rod, rad i povijest računalstva, rekla je da je nemarno od strane istraživača pozivati ​​ljude da ga koriste, s obzirom da je Delphi odmah pružio krajnje neetične odgovore i neke potpuna besmislica. 

    U 2023, Ostatak svijeta proveo studiju o pristranosti u AI generatorima slike. Koristeći Midjourney, istraživači su otkrili da generirane slike potvrđuju postojeće stereotipe. Osim toga, kada je OpenAI primijenio filtre na podatke o obuci za svoj model generiranja slike DALL-E 2, nenamjerno je pojačao pristranosti povezane sa spolom.

    Implikacije problematičnih podataka o obuci

    Šire implikacije problematičnih podataka o obuci mogu uključivati: 

    • Pojačane pristranosti u istraživačkim projektima, uslugama i razvoju programa. Problematični podaci o obuci posebno su zabrinjavajući ako se koriste u policijskim i bankarskim institucijama (npr. nepovoljno ciljanje na manjinske skupine).
    • Povećana ulaganja i razvoj u rastu i asortimanu podataka o obuci. 
    • Sve više vlada povećava propise kako bi ograničile način na koji korporacije razvijaju, prodaju i koriste podatke o obuci za razne komercijalne inicijative.
    • Više tvrtki uspostavlja etičke odjele kako bi osiguralo da projekti koji se pokreću sustavima umjetne inteligencije slijede etičke smjernice.
    • Pojačani nadzor nad upotrebom umjetne inteligencije u zdravstvu dovodi do strožeg upravljanja podacima, osiguravanja privatnosti pacijenata i etičke primjene umjetne inteligencije.
    • Povećana suradnja javnog i privatnog sektora za poticanje AI pismenosti, opremanje radne snage vještinama za budućnost kojom dominira AI.
    • Porast potražnje za alatima za transparentnost umjetne inteligencije, navodi tvrtke da daju prednost objašnjivosti u sustavima umjetne inteligencije za razumijevanje i povjerenje potrošača.

    Pitanja za razmatranje

    • Kako organizacije mogu izbjeći korištenje problematičnih podataka o obuci?
    • Koje su druge moguće posljedice neetičkih podataka o obuci?