Quantumrun

PILDIKrediit:

iStock

Probleemsed koolitusandmed: kui tehisintellektile õpetatakse kallutatud andmeid

Tehisintellekti süsteeme tutvustatakse mõnikord subjektiivsete andmetega, mis võivad mõjutada nende toimimist ja otsuste tegemist.

Autor:
autori nimi
Quantumrun Foresight
Oktoober 14, 2022

Ülevaate kokkuvõte

Me oleme see, mida me õpime ja sisendame; see põhimõte kehtib ka tehisintellekti (AI) kohta. Masinõppe (ML) mudelid, mis on toidetud mittetäielike, kallutatud ja ebaeetiliste andmetega, teevad lõppkokkuvõttes probleemseid otsuseid ja ettepanekuid. Need võimsad algoritmid võivad seejärel mõjutada kasutajate moraali ja arusaamu, kui teadlased ei ole ettevaatlikud.

Probleemsete treeningandmete kontekst

Alates 2010. aastatest on uurimisrühmi kontrollitud ebasobiva sisuga või ebaeetiliselt kogutud koolitusandmete kasutamise eest. Näiteks 2016. aastal sisaldas Microsofti MS-Celeb-1M andmebaas 10 miljonit pilti 100,000 XNUMX erinevast kuulsusest. Täiendamisel kontrollimisel avastasid korrespondendid aga, et paljud fotod olid tavainimestest, mis on võetud erinevatelt veebisaitidelt ilma omaniku nõusoleku ja teadmata.

Sellest arusaamisest hoolimata kasutasid andmestikku jätkuvalt suured ettevõtted, nagu Facebook ja SenseTime, Hiina näotuvastusettevõte, millel on linke riigipolitseile. Samamoodi ei kogunud nõusolekut andmestik, mis sisaldab pilte Duke'i ülikooli ülikoolilinnakus (DukeMTMC) kõndivatest inimestest. Lõpuks eemaldati mõlemad andmestikud.

Probleemsete treeningandmete kahjulike mõjude esiletõstmiseks lõid Massachusettsi Tehnoloogiainstituudi (MIT) teadlased Norman-nimelise tehisintellekti, mida nad õpetasid tegema graafilist vägivalda esiletõstvast subredditist piltide pealdisi. Seejärel asetas meeskond Normani tavaliste andmete abil treenitud närvivõrgu vastu. Teadlased varustasid mõlemat süsteemi Rorschachi tindilaikudega ja palusid tehisintellektidel kirjeldada, mida nad nägid. Tulemused olid vapustavad: seal, kus standardne närvivõrk nägi "mustvalget fotot pesapallikindast", täheldas Norman "meest, kes mõrvati kuulipildujaga päevavalges". Katse näitas, et tehisintellekt ei ole automaatselt kallutatud, kuid need andmesisestusmeetodid ja nende loojate motiivid võivad tehisintellekti käitumist märkimisväärselt mõjutada.

Häiriv mõju

2021. aastal lõi uurimisorganisatsioon Allen Institute for AI ML-tarkvara Ask Delphi, mis genereerib algoritmiliselt vastuseid mis tahes eetilisele küsimusele. Projekti taga olevad teadlased väitsid, et AI muutub järk-järgult võimsamaks ja tuttavamaks, nii et teadlased peavad neid ML-süsteemide eetikat õpetama. Unicorn ML mudel on Delphi vundament. See koostati "terve mõistuse" arutlemiseks, näiteks tekstistringi kõige tõenäolisema lõpu valimiseks.

Lisaks kasutasid teadlased Commonsense Norm Banki. See pank koosneb 1.7 miljonist näitest inimeste eetiliste hinnangute kohta sellistest kohtadest nagu Reddit. Sellest tulenevalt oli Delphi toodang segane. Delphi vastas mõnele küsimusele mõistlikult (nt meeste ja naiste võrdõiguslikkus), samas kui mõnel teemal oli Delphi lausa solvav (nt genotsiid on vastuvõetav seni, kuni see inimesi õnnelikuks teeb).

Delphi AI aga õpib oma kogemustest ja näib, et värskendab oma vastuseid tagasiside põhjal. Mõningaid eksperte häirib uuringu avalik ja avatud kasutamine, kuna mudel on pooleli ja vastustele kaldub ebaühtlane. Kui Ask Delphi debüteeris, ütles Illinois Techi ajalooprofessor Mar Hicks, kes on spetsialiseerunud soo, tööjõu ja andmetöötluse ajaloole, et teadlaste hooletus kutsus inimesi seda kasutama, kuna Delphi andis kohe äärmiselt ebaeetilised vastused ja mõned täielik jama.

Aastal 2023, Ülejäänud maailm viis läbi uuringu tehisintellekti kujutise generaatorite eelarvamuste kohta. Midjourney abil avastasid teadlased, et loodud pildid kinnitavad olemasolevaid stereotüüpe. Lisaks, kui OpenAI rakendas oma DALL-E 2 kujutise genereerimise mudeli treeningandmetele filtreid, suurendas see tahtmatult sooga seotud eelarvamusi.

Probleemsete treeningandmete tagajärjed

Probleemsete koolitusandmete laiemad tagajärjed võivad hõlmata järgmist:

Tugevdatud eelarvamused uurimisprojektides, teenustes ja programmiarenduses. Probleemsed koolitusandmed on eriti murettekitavad, kui neid kasutatakse õiguskaitseasutustes ja pangandusasutustes (nt ebasoodsalt suunatud vähemusrühmadele).
Suurenenud investeeringud ja arendused koolitusandmete kasvu ja sortimendi osas.
Üha enam valitsusi kehtestavad eeskirjad, et piirata seda, kuidas ettevõtted arendavad, müüvad ja kasutavad koolitusandmeid erinevate ärialgatuste jaoks.
Rohkem ettevõtteid asutab eetikaosakondi tagamaks, et tehisintellektisüsteemidega töötavad projektid järgivad eetilisi juhiseid.
Täiustatud kontroll tehisintellekti kasutamise üle tervishoius, mis toob kaasa rangema andmehalduse, tagab patsiendi privaatsuse ja eetilise tehisintellekti rakenduse.
Suurenenud avaliku ja erasektori koostöö, et edendada tehisintellekti kirjaoskust, andes töötajatele oskused tehisintellekti domineeriva tuleviku jaoks.
Kasvab nõudlus tehisintellekti läbipaistvuse tööriistade järele, mis sunnib ettevõtteid seadma tehisintellektisüsteemides tarbijate mõistmise ja usalduse huvides esikohale seletatavuse.