Problematické trénovacie údaje: Keď sa AI učí neobjektívne údaje

OBRÁZOK PRE OBRÁZOK:
Obrazový kredit
iStock

Problematické trénovacie údaje: Keď sa AI učí neobjektívne údaje

Problematické trénovacie údaje: Keď sa AI učí neobjektívne údaje

Text podnadpisu
Systémy umelej inteligencie sa niekedy zavádzajú so subjektívnymi údajmi, ktoré môžu ovplyvniť to, ako koná a robí rozhodnutia.
    • Autor:
    • meno autora
      Predvídavosť Quantumrun
    • Októbra 14, 2022

    Súhrn prehľadu

    Sme tým, čo sa učíme a osvojujeme si; toto pravidlo platí aj pre umelú inteligenciu (AI). Modely strojového učenia (ML) napájané neúplnými, zaujatými a neetickými údajmi v konečnom dôsledku prinesú problematické rozhodnutia a návrhy. Tieto výkonné algoritmy potom môžu ovplyvniť morálku a vnímanie používateľov, ak výskumníci nebudú opatrní.

    Problematický kontext tréningových dát

    Od roku 2010 boli výskumné tímy kontrolované kvôli používaniu tréningových dátových súborov s nevhodným obsahom alebo zhromažďovaných neeticky. Napríklad v roku 2016 obsahovala databáza MS-Celeb-1M spoločnosti Microsoft 10 miliónov obrázkov 100,000 XNUMX rôznych celebrít. Pri ďalšom skúmaní však korešpondenti zistili, že mnohé fotografie boli obyčajných ľudí stiahnutých z rôznych webových stránok bez súhlasu alebo vedomia majiteľa.

    Napriek tomuto poznaniu bol súbor údajov naďalej využívaný veľkými spoločnosťami, ako sú Facebook a SenseTime, čínska spoločnosť na rozpoznávanie tváre s prepojením na štátnu políciu. Podobne súhlas nezískal ani súbor údajov obsahujúci obrázky ľudí kráčajúcich po areáli Duke University (DukeMTMC). Nakoniec boli oba súbory údajov odstránené. 

    Aby sa zdôraznili škodlivé účinky problematických tréningových údajov, výskumníci z Massachusettského technologického inštitútu (MIT) vytvorili AI s názvom Norman, ktorú naučili vykonávať titulky obrázkov zo subredditu, ktorý zvýrazňoval grafické násilie. Tím potom umiestnil Normana proti neurónovej sieti trénovanej pomocou konvenčných údajov. Výskumníci dodali obom systémom Rorschachove atramentové škvrny a požiadali AI, aby opísali, čo videli. Výsledky boli ohromujúce: tam, kde štandardná neurónová sieť videla „čiernobielu fotografiu bejzbalovej rukavice“, Norman pozoroval „muža zavraždeného guľometom za bieleho dňa“. Experiment ukázal, že AI nie je automaticky zaujatá, ale tieto metódy zadávania údajov a motívy ich tvorcov môžu výrazne ovplyvniť správanie AI.

    Rušivý vplyv

    V roku 2021 vytvorila výskumná organizácia Allen Institute for AI Ask Delphi, softvér ML, ktorý algoritmicky generuje odpovede na akúkoľvek etickú otázku. Vedci za projektom uviedli, že AI sa postupne stáva výkonnejšou a známejšou, takže vedci musia naučiť tieto systémy ML etiku. Model Unicorn ML je základom Delphi. Bol formulovaný tak, aby uskutočňoval uvažovanie „zdravým rozumom“, ako je výber najpravdepodobnejšieho konca textového reťazca. 

    Okrem toho výskumníci použili 'Commonsense Norm Bank.' Táto banka pozostáva z 1.7 milióna príkladov etického hodnotenia ľudí z miest ako Reddit. Výsledkom bolo, že výstupom Delphi bola zmiešaná taška. Delphi odpovedalo na niektoré otázky rozumne (napr. rovnosť medzi mužmi a ženami), zatiaľ čo v niektorých témach boli Delphi priam urážlivé (napr. genocída je prijateľná, pokiaľ robí ľudí šťastnými).

    Delphi AI sa však učí zo svojich skúseností a zdá sa, že svoje odpovede aktualizuje na základe spätnej väzby. Niektorých odborníkov znepokojuje verejné a otvorené využitie výskumu, keďže model prebieha a je náchylný na nepresné odpovede. Keď Ask Delphi debutoval, Mar Hicks, profesor histórie na Illinois Tech, ktorý sa špecializuje na pohlavie, prácu a históriu výpočtovej techniky, povedal, že zo strany výskumníkov bolo nedbalé pozývať ľudí, aby to používali, pretože Delphi okamžite poskytlo extrémne neetické odpovede a niektoré úplný nezmysel. 

    V 2023, Zvyšok sveta uskutočnila štúdiu o skreslení v generátoroch obrázkov AI. Pomocou Midjourney vedci zistili, že vytvorené obrázky potvrdzujú existujúce stereotypy. Okrem toho, keď OpenAI aplikoval filtre na tréningové údaje pre svoj model generovania obrázkov DALL-E 2, neúmyselne to zintenzívnilo predsudky súvisiace s pohlavím.

    Dôsledky problematických tréningových dát

    Širšie dôsledky problematických tréningových údajov môžu zahŕňať: 

    • Posilnené predsudky vo výskumných projektoch, službách a vývoji programov. Problematické údaje o školení sú obzvlášť znepokojujúce, ak sa používajú v orgánoch činných v trestnom konaní a bankových inštitúciách (napr. nepriaznivé zameranie sa na menšinové skupiny).
    • Zvýšené investície a rozvoj do rastu a sortimentu tréningových dát. 
    • Viac vlád zvyšuje regulácie na obmedzenie toho, ako spoločnosti vyvíjajú, predávajú a používajú školiace údaje pre rôzne komerčné iniciatívy.
    • Viac podnikov zakladá etické oddelenia, aby zabezpečili, že projekty poháňané systémami AI budú dodržiavať etické pokyny.
    • Posilnená kontrola používania AI v zdravotníctve vedie k prísnejšej správe údajov, zabezpečeniu súkromia pacientov a etickému uplatňovaniu AI.
    • Zvýšená spolupráca medzi verejným a súkromným sektorom s cieľom podporiť gramotnosť AI a vybaviť pracovnú silu zručnosťami pre budúcnosť ovládanú AI.
    • Nárast dopytu po nástrojoch transparentnosti AI, čo vedie spoločnosti k tomu, že uprednostňujú vysvetliteľnosť v systémoch AI pre pochopenie a dôveru spotrebiteľov.

    Otázky na zváženie

    • Ako sa môžu organizácie vyhnúť používaniu problematických školiacich údajov?
    • Aké sú ďalšie potenciálne dôsledky neetických tréningových údajov?