Problemātiski apmācības dati: kad AI tiek mācīti neobjektīvi dati

ATTĒLA KREDĪTS:
Attēls kredīts
iStock

Problemātiski apmācības dati: kad AI tiek mācīti neobjektīvi dati

Problemātiski apmācības dati: kad AI tiek mācīti neobjektīvi dati

Apakšvirsraksta teksts
Mākslīgā intelekta sistēmas dažkārt tiek ieviestas ar subjektīviem datiem, kas var ietekmēt to darbību un lēmumu pieņemšanu.
    • Autors:
    • Autors nosaukums
      Quantumrun Foresight
    • Oktobris 14, 2022

    Ieskata kopsavilkums

    Mēs esam tas, ko mēs mācāmies un internalizējam; šis teikums attiecas arī uz mākslīgo intelektu (AI). Mašīnmācīšanās (ML) modeļi, kas tiek baroti ar nepilnīgiem, neobjektīviem un neētiskiem datiem, galu galā pieņems problemātiskus lēmumus un ieteikumus. Ja pētnieki nebūs uzmanīgi, šie spēcīgie algoritmi var ietekmēt lietotāju morāli un uztveri.

    Problēmu apmācību datu konteksts

    Kopš 2010. gadiem pētnieku grupas ir rūpīgi pārbaudītas, vai nav izmantotas apmācības datu kopas ar nepiemērotu saturu vai savāktas neētiski. Piemēram, 2016. gadā Microsoft MS-Celeb-1M datubāzē bija iekļauti 10 miljoni attēlu ar 100,000 XNUMX dažādu slavenību. Tomēr, veicot papildu pārbaudi, korespondenti atklāja, ka daudzas fotogrāfijas ir ar parastiem cilvēkiem, kas izvilktas no dažādām vietnēm bez īpašnieka piekrišanas vai ziņas.

    Neskatoties uz šo sapratni, datu kopu turpināja izmantot lielie uzņēmumi, piemēram, Facebook un SenseTime, Ķīnas sejas atpazīšanas uzņēmums ar saitēm uz valsts policiju. Tāpat arī datu kopa, kurā ir attēli ar cilvēkiem, kuri staigā Djūka universitātes pilsētiņā (DukeMTMC), arī neievāca piekrišanu. Galu galā abas datu kopas tika noņemtas. 

    Lai uzsvērtu problemātisko apmācības datu kaitīgo ietekmi, Masačūsetsas Tehnoloģiju institūta (MIT) pētnieki izveidoja AI ar nosaukumu Norman, ko viņi mācīja veikt attēlu parakstīšanu no subreddit, kas izceļ grafisku vardarbību. Pēc tam komanda novietoja Normanu pret neironu tīklu, kas apmācīts, izmantojot parastos datus. Pētnieki piegādāja abām sistēmām Rorschach tintes traipus un lūdza AI aprakstīt redzēto. Rezultāti bija satriecoši: kur standarta neironu tīkls redzēja "melnbaltu beisbola cimda fotoattēlu", Normans novēroja "cilvēku, ko gaišā dienas laikā nogalināja ar ložmetēju". Eksperiments parādīja, ka mākslīgais intelekts nav automātiski neobjektīvs, taču šīs datu ievades metodes un to radītāju motīvi var būtiski ietekmēt AI uzvedību.

    Traucējoša ietekme

    2021. gadā pētniecības organizācija Allen Institute for AI izveidoja Ask Delphi — ML programmatūru, kas algoritmiski ģenerē atbildes uz jebkuru ētisku jautājumu. Projekta pētnieki paziņoja, ka AI pakāpeniski kļūst spēcīgāks un pazīstamāks, tāpēc zinātniekiem ir jāmāca šīs ML sistēmu ētika. Unicorn ML modelis ir Delphi pamats. Tas tika formulēts, lai veiktu "veselā saprāta" spriešanu, piemēram, izvēloties teksta virknes visticamāko galotni. 

    Turklāt pētnieki izmantoja "Commonsense Norm Bank". Šī banka sastāv no 1.7 miljoniem cilvēku ētisku vērtējumu piemēru no tādām vietām kā Reddit. Rezultātā Delphi produkcija bija jaukta. Delphi saprātīgi atbildēja uz dažiem jautājumiem (piemēram, vīriešu un sieviešu līdztiesība), turpretim par dažām tēmām Delphi bija atklāti aizskaroši (piemēram, genocīds ir pieņemams, ja vien tas cilvēkus iepriecina).

    Tomēr Delphi AI mācās no savas pieredzes un, šķiet, atjaunina savas atbildes, pamatojoties uz atsauksmēm. Dažus ekspertus satrauc pētījuma publiskā un atklātā izmantošana, ņemot vērā, ka modelis tiek izstrādāts un ir pakļauts nepareizām atbildēm. Kad Ask Delphi debitēja, Mars Hikss, Illinois Tech vēstures profesors, kurš specializējas dzimumu līdztiesības, darba un skaitļošanas vēsturē, sacīja, ka pētnieki bija neuzmanīgi aicinājuši cilvēkus to izmantot, jo Delphi nekavējoties sniedza ārkārtīgi neētiskas atbildes un dažas. pilnīgas muļķības. 

    Jo 2023, Pārējā pasaule veica pētījumu par neobjektivitāti AI attēlu ģeneratoros. Izmantojot Midjourney, pētnieki atklāja, ka radītie attēli apstiprina esošos stereotipus. Turklāt, kad OpenAI izmantoja filtrus sava DALL-E 2 attēla ģenerēšanas modeļa apmācības datiem, tas netīši pastiprināja ar dzimumu saistītās novirzes.

    Problēmu apmācības datu ietekme

    Problēmu apmācības datu plašākas sekas var ietvert: 

    • Pastiprināti aizspriedumi pētniecības projektos, pakalpojumos un programmu izstrādē. Problemātiskie apmācības dati ir īpaši satraucoši, ja tos izmanto tiesībaizsardzības un banku iestādēs (piemēram, negatīvi mērķējot uz minoritāšu grupām).
    • Palielinātas investīcijas un attīstība apmācību datu izaugsmē un sortimentā. 
    • Arvien vairāk valdību pastiprina noteikumus, lai ierobežotu to, kā korporācijas izstrādā, pārdod un izmanto apmācību datus dažādām komerciālām iniciatīvām.
    • Vairāk uzņēmumu veido ētikas nodaļas, lai nodrošinātu, ka projekti, ko darbina AI sistēmas, ievēro ētikas vadlīnijas.
    • Uzlabota AI izmantošanas pārbaude veselības aprūpē, kas noved pie stingrākas datu pārvaldības, pacientu privātuma un ētiskas AI lietošanas nodrošināšanas.
    • Pastiprināta publiskā un privātā sektora sadarbība, lai veicinātu AI lietotprasmi, nodrošinot darbaspēku ar prasmēm nākotnei, kurā dominē AI.
    • Pieaug pieprasījums pēc AI pārredzamības rīkiem, liekot uzņēmumiem AI sistēmās noteikt prioritāti izskaidrojamībai, lai patērētāji saprastu un uzticētos.

    Jautājumi, kas jāapsver

    • Kā organizācijas varētu izvairīties no problemātisku apmācību datu izmantošanas?
    • Kādas ir citas neētisku apmācību datu iespējamās sekas?