Probleminiai mokymo duomenys: kai AI mokoma šališkų duomenų

VAIZDO KREDITAS:
Paveikslėlio kredito
iStock

Probleminiai mokymo duomenys: kai AI mokoma šališkų duomenų

Probleminiai mokymo duomenys: kai AI mokoma šališkų duomenų

Paantraštės tekstas
Dirbtinio intelekto sistemos kartais pateikiamos su subjektyviais duomenimis, kurie gali turėti įtakos jų veikimui ir sprendimų priėmimui.
    • Autorius:
    • autoriaus vardas
      Quantumrun Foresight
    • Spalis 14, 2022

    Įžvalgos santrauka

    Mes esame tai, ką mokomės ir įsisaviname; šis patarimas taip pat taikomas dirbtiniam intelektui (DI). Mašininio mokymosi (ML) modeliai, kuriuose pateikiami neišsamūs, šališki ir neetiški duomenys, galiausiai priims problemiškus sprendimus ir pasiūlymus. Šie galingi algoritmai gali paveikti vartotojų moralę ir suvokimą, jei tyrėjai nebus atsargūs.

    Probleminis mokymo duomenų kontekstas

    Nuo 2010-ųjų tyrimų grupės buvo kruopščiai tikrinamos, ar naudoja netinkamo turinio mokymo duomenų rinkinius arba surinktus neetiškai. Pavyzdžiui, 2016 m. Microsoft MS-Celeb-1M duomenų bazėje buvo 10 milijonų 100,000 XNUMX skirtingų įžymybių vaizdų. Tačiau toliau apžiūrėję korespondentai išsiaiškino, kad daugelis paprastų žmonių nuotraukų, ištrauktų iš įvairių svetainių be savininko sutikimo ar žinios.

    Nepaisant šio supratimo, duomenų rinkinį ir toliau naudojo didelės įmonės, tokios kaip „Facebook“ ir „SenseTime“, Kinijos veido atpažinimo įmonė, turinti nuorodas į valstybės policiją. Panašiai duomenų rinkinys, kuriame yra Duke universiteto miesteliu vaikštančių žmonių nuotraukos (DukeMTMC), sutikimo taip pat negavo. Galiausiai abu duomenų rinkiniai buvo pašalinti. 

    Siekdami pabrėžti žalingą probleminių treniruočių duomenų poveikį, Masačusetso technologijos instituto (MIT) mokslininkai sukūrė dirbtinį intelektą, vadinamą Normanu, kurį išmokė atlikti vaizdų antraštes iš subreddito, kuris pabrėžė grafinį smurtą. Tada komanda pastatė Normaną prieš neuroninį tinklą, apmokytą naudojant įprastinius duomenis. Mokslininkai abi sistemas aprūpino Rorschach rašalo dėmėmis ir paprašė AI apibūdinti tai, ką jie matė. Rezultatai buvo stulbinantys: ten, kur standartinis neuroninis tinklas matė „nespalvotą beisbolo pirštinės nuotrauką“, Normanas pastebėjo „vyrą, nužudytą kulkosvaidžiu vidury baltos dienos“. Eksperimentas parodė, kad dirbtinis intelektas nėra automatiškai šališkas, tačiau šie duomenų įvesties metodai ir jų kūrėjų motyvai gali labai paveikti AI elgesį.

    Trikdantis poveikis

    2021 m. mokslinių tyrimų organizacija Allen Institute for AI sukūrė „Ask Delphi“ – ML programinę įrangą, kuri algoritmiškai generuoja atsakymus į bet kokį etinį klausimą. Projekto tyrėjai teigė, kad AI palaipsniui tampa galingesnis ir pažįstamas, todėl mokslininkai turi išmokyti šių ML sistemų etikos. „Unicorn ML“ modelis yra „Delphi“ pagrindas. Jis buvo suformuluotas siekiant „sveiko proto“ samprotavimo, pavyzdžiui, pasirinkti labiausiai tikėtiną teksto eilutės pabaigą. 

    Be to, mokslininkai naudojo „Commonsense Norm Bank“. Šį banką sudaro 1.7 milijono žmonių etinio vertinimo pavyzdžių iš tokių vietų kaip Reddit. Dėl to „Delphi“ produkcija buvo mišri. Delphi pagrįstai atsakė į kai kuriuos klausimus (pvz., vyrų ir moterų lygybė), o kai kuriomis temomis Delphi buvo tiesiog įžeidžiantis (pvz., genocidas yra priimtinas tol, kol jis daro žmones laimingus).

    Tačiau „Delphi AI“ mokosi iš savo patirties ir, regis, atnaujina savo atsakymus remdamasis atsiliepimais. Kai kurie ekspertai kelia nerimą dėl viešo ir atviro tyrimo naudojimo, nes modelis yra vykdomas ir yra linkęs į klaidingus atsakymus. Kai „Ask Delphi“ debiutavo, Maras Hicksas, Ilinojaus technologijos universiteto istorijos profesorius, besispecializuojantis lyčių, darbo ir skaičiavimo istorijos klausimais, teigė, kad tyrėjų aplaidumas kvietė žmones ja naudotis, nes „Delphi“ iš karto pateikė itin neetiškus atsakymus ir kai kurie. visiška nesąmonė. 

    2023 metais Likęs pasaulis atliko AI vaizdo generatorių šališkumo tyrimą. Naudodami Midjourney mokslininkai išsiaiškino, kad sukurti vaizdai patvirtina esamus stereotipus. Be to, kai OpenAI pritaikė filtrus savo DALL-E 2 vaizdų generavimo modelio mokymo duomenims, jis netyčia sustiprino su lytimi susijusius paklaidas.

    Probleminių mokymo duomenų pasekmės

    Platesni probleminių mokymo duomenų padariniai gali būti: 

    • Sustiprintas šališkumas mokslinių tyrimų projektuose, paslaugose ir programų kūrime. Probleminiai mokymo duomenys yra ypač susirūpinę, jei naudojami teisėsaugos ir bankų institucijose (pvz., neigiamai nukreipiant į mažumų grupes).
    • Didesnės investicijos ir plėtra į mokymo duomenų augimą ir asortimentą. 
    • Vis daugiau vyriausybių griežtina reglamentus, siekdama apriboti, kaip korporacijos kuria, parduoda ir naudoja mokymo duomenis įvairioms komercinėms iniciatyvoms.
    • Vis daugiau įmonių steigia etikos skyrius, kad užtikrintų, jog AI sistemų valdomi projektai laikytųsi etikos gairių.
    • Sustiprinta AI naudojimo sveikatos priežiūros srityje kontrolė, dėl kurios sugriežtinamas duomenų valdymas, užtikrinamas pacientų privatumas ir etiškas AI taikymas.
    • Didesnis viešojo ir privataus sektoriaus bendradarbiavimas, skatinantis dirbtinio intelekto raštingumą, suteikiant darbo jėgai įgūdžių, reikalingų dirbtinio intelekto valdomai ateičiai.
    • Didėja AI skaidrumo įrankių paklausa, todėl įmonės pirmenybę teikia AI sistemų paaiškinamumui, kad vartotojai suprastų ir pasitikėtų.

    Klausimai, kuriuos reikia apsvarstyti

    • Kaip organizacijos galėtų išvengti probleminių mokymo duomenų naudojimo?
    • Kokios kitos galimos neetiškų mokymo duomenų pasekmės?