Problemaj trejnaj datenoj: Kiam AI estas instruata partiaj datumoj

BILDA KREDITO:
Bildo kredito
iStock

Problemaj trejnaj datenoj: Kiam AI estas instruata partiaj datumoj

Problemaj trejnaj datenoj: Kiam AI estas instruata partiaj datumoj

Subtitolo teksto
Sistemoj de artefarita inteligenteco foje estas lanĉitaj kun subjektivaj datenoj kiuj povas influi kiel ĝi agas kaj faras decidojn.
    • Aŭtoro:
    • Aŭtora nomo
      Quantumrun Foresight
    • Oktobro 14, 2022

    Enrigarda resumo

    Ni estas tio, kion ni lernas kaj internigas; ĉi tiu diro ankaŭ validas por artefarita inteligenteco (AI). Maŝinlernado (ML) modeloj nutritaj kun nekompletaj, partiaj kaj maletikaj datumoj finfine faros problemajn decidojn kaj sugestojn. Ĉi tiuj potencaj algoritmoj povas tiam influi la moralecon kaj perceptojn de uzantoj se esploristoj ne zorgas.

    Problema trejna datuma kunteksto

    Ekde la 2010-aj jaroj, esplorteamoj estis ekzamenitaj por uzado de trejnaj datumaroj kun netaŭga enhavo aŭ kolektitaj maletike. Ekzemple, en 2016, la datumbazo MS-Celeb-1M de Microsoft inkludis 10 milionojn da bildoj de 100,000 malsamaj famuloj. Tamen, post plia inspektado, korespondistoj malkovris ke multaj fotoj estis de ordinaraj homoj tiritaj de diversaj retejoj sen la konsento aŭ scio de la posedanto.

    Malgraŭ tiu konstato, la datumaro daŭre estis utiligita fare de gravaj firmaoj kiel ekzemple Facebook kaj SenseTime, ĉina vizaĝrekonofirmao kun ligiloj al la ŝtatpolico. Simile, datumaro enhavanta bildojn de homoj promenantaj sur la kampuso de Universitato Duke (DukeMTMC) ankaŭ ne kolektis konsenton. Poste, ambaŭ datumaroj estis forigitaj. 

    Por reliefigi la damaĝajn efikojn de problemaj trejnaj datumoj, esploristoj de la Masaĉuseca Instituto pri Teknologio (MIT) kreis AI nomatan Norman, kiun ili instruis fari bildotekston de subredo, kiu elstarigis grafikan perforton. La teamo tiam metis normandon kontraŭ neŭrala reto trejnita uzante konvenciajn datenojn. La esploristoj provizis ambaŭ sistemojn per Rorschach-inkblokoj kaj petis la AI priskribi tion, kion ili vidis. La rezultoj estis mirindaj: kie la norma neŭrala reto vidis "nigran kaj blankan foton de basbalganto", normando observis "viron murditan per maŝinpafilo en plena taglumo." La eksperimento pruvis, ke AI ne estas aŭtomate partia, sed tiuj metodoj de enigo de datumoj kaj la motivoj de siaj kreintoj povas signife influi la konduton de AI.

    Disrompa efiko

    En 2021, la esplororganizo Allen Institute por AI kreis Ask Delphi, ML-programaron kiu algoritme generas respondojn por respondoj al iu ajn etika demando. La esploristoj malantaŭ la projekto deklaris, ke AI iom post iom fariĝas pli potenca kaj konata, do sciencistoj devas instrui ĉi tiujn ML-sistemajn etikon. La Unicorn ML-modelo estas la fundamento de Delfo. Ĝi estis formulita por efektivigi "ordinaran" rezonadon, kiel ekzemple elektado de la plej verŝajna fino al tekstĉeno. 

    Krome, esploristoj uzis la 'Commonsense Norm Bank.' Ĉi tiu banko konsistas el 1.7 milionoj da ekzemploj de etikaj taksadoj de homoj de lokoj kiel Reddit. Kiel rezulto, la produktaĵo de Delfo estis miksita sako. Delfo respondis kelkajn demandojn prudente (ekz., egaleco inter viroj kaj virinoj), dum, pri kelkaj temoj, Delfo estis rekte ofensiva (ekz., genocido estas akceptebla tiel longe kiel ĝi feliĉigis homojn).

    Tamen, la Delphi AI lernas de siaj spertoj kaj ŝajnas ĝisdatigi siajn respondojn surbaze de sugestoj. Kelkaj fakuloj estas ĝenitaj de la publika kaj malferma uzo de la esplorado, konsiderante ke la modelo estas en progreso kaj estas ema al nekonstantaj respondoj. Kiam Ask Delphi debutis, Mar Hicks, profesoro pri Historio ĉe Illinois Tech, specialiĝanta pri sekso, laboro kaj historio de komputado, diris, ke estis neglekteme de esploristoj inviti homojn uzi ĝin, konsiderante, ke Delfo tuj disponigis ekstreme maletikajn respondojn kaj iujn. kompleta sensencaĵo. 

    En 2023, Resto de la Mondo faris studon pri biaso en AI-bildgeneratoroj. Uzante Midjourney, esploristoj malkovris, ke la generitaj bildoj asertas ekzistantajn stereotipojn. Krome, kiam OpenAI aplikis filtrilojn al la trejnaddatenoj por ĝia DALL-E 2 bildgeneradmodelo, ĝi pretervole intensigis biasojn rilatajn al sekso.

    Implikoj de problemaj trejnaj datumoj

    Pli larĝaj implicoj de problemaj trejnaddatenoj povas inkludi: 

    • Plifortigitaj biasoj en esplorprojektoj, servoj kaj programevoluo. Problemaj trejnaj datumoj estas precipe koncernaj se uzataj en policaj kaj bankaj institucioj (ekz., malfavore celanta minoritatajn grupojn).
    • Pliigita investo kaj evoluo en la kresko kaj sortimento de trejnaj datumoj. 
    • Pli da registaroj pliigas regularojn por limigi kiel korporacioj disvolvas, vendas kaj uzas trejnajn datumojn por diversaj komercaj iniciatoj.
    • Pli da entreprenoj establante etikajn fakojn por certigi, ke projektoj funkciigitaj de AI-sistemoj sekvas etikajn gvidliniojn.
    • Plifortigita ekzamenado pri la uzo de AI en sanservo kondukante al pli strikta administrado de datumoj, certigante paciencan privatecon kaj etikan AI-aplikaĵon.
    • Pliigita publika kaj privata sektoro kunlaboro por kreskigi AI-legopovon, ekipante la laborantaron per kapabloj por AI-dominita estonteco.
    • Pliiĝo de postulo pri AI-travideblecoj, igante kompaniojn prioritatigi klarigeblecon en AI-sistemoj por kompreno kaj fido de konsumantoj.

    Konsiderindaj demandoj

    • Kiel organizoj povus eviti uzi problemajn trejnajn datumojn?
    • Kio estas aliaj eblaj konsekvencoj de maletikaj trejnaj datumoj?

    Enrigardaj referencoj

    La sekvaj popularaj kaj instituciaj ligiloj estis referenceitaj por ĉi tiu kompreno: