Të dhënat problematike të trajnimit: Kur AI mësohet të dhëna të njëanshme

KREDI I IMAZHIT:
Kredia Image
iStock

Të dhënat problematike të trajnimit: Kur AI mësohet të dhëna të njëanshme

Të dhënat problematike të trajnimit: Kur AI mësohet të dhëna të njëanshme

Teksti i nëntitullit
Sistemet e inteligjencës artificiale ndonjëherë prezantohen me të dhëna subjektive që mund të ndikojnë në mënyrën se si vepron dhe merr vendime.
    • Author:
    • Emri i autorit
      Parashikimi Kuantumrun
    • Tetor 14, 2022

    Përmbledhje e pasqyrës

    Ne jemi ajo që mësojmë dhe përvetësojmë; ky thënie vlen edhe për inteligjencën artificiale (AI). Modelet e të mësuarit të makinerive (ML) të ushqyera me të dhëna jo të plota, të njëanshme dhe joetike, përfundimisht do të marrin vendime dhe sugjerime problematike. Këto algoritme të fuqishme më pas mund të ndikojnë në moralin dhe perceptimet e përdoruesve nëse studiuesit nuk janë të kujdesshëm.

    Konteksti problematik i të dhënave të trajnimit

    Që nga vitet 2010, ekipet kërkimore janë shqyrtuar për përdorimin e grupeve të të dhënave të trajnimit me përmbajtje të papërshtatshme ose të mbledhura në mënyrë joetike. Për shembull, në vitin 2016, baza e të dhënave MS-Celeb-1M e Microsoft përfshinte 10 milionë imazhe të 100,000 personaliteteve të ndryshme. Megjithatë, pas inspektimit të mëtejshëm, korrespondentët zbuluan se shumë foto ishin të njerëzve të zakonshëm të nxjerra nga uebsajte të ndryshme pa pëlqimin ose dijeninë e pronarit.

    Pavarësisht këtij realizimi, grupi i të dhënave vazhdoi të përdoret nga kompani të mëdha si Facebook dhe SenseTime, një kompani kineze e njohjes së fytyrës me lidhje me policinë e shtetit. Në mënyrë të ngjashme, një grup i të dhënave që përmban fotografi të njerëzve që ecnin në kampusin e Universitetit Duke (DukeMTMC) nuk mori as pëlqimin. Përfundimisht, të dy grupet e të dhënave u hoqën. 

    Për të nxjerrë në pah efektet dëmtuese të të dhënave problematike të trajnimit, studiuesit në Institutin e Teknologjisë të Masaçusetsit (MIT) krijuan një AI të quajtur Norman të cilën e mësuan të kryente mbishkrimin e imazheve nga një nënredit që theksonte dhunën grafike. Ekipi më pas vendosi Norman kundër një rrjeti nervor të trajnuar duke përdorur të dhëna konvencionale. Studiuesit i furnizuan të dy sistemet me njolla boje Rorschach dhe i kërkuan AI-ve të përshkruanin atë që panë. Rezultatet ishin mahnitëse: aty ku rrjeti nervor standard pa "një foto bardh e zi të një doreze bejsbolli", Norman vëzhgoi "një njeri të vrarë me automatik në mes të ditës". Eksperimenti tregoi se AI nuk është automatikisht e njëanshme, por këto metoda të futjes së të dhënave dhe motivet e krijuesve të tyre mund të ndikojnë ndjeshëm në sjelljen e një AI.

    Ndikim shkatërrues

    Në vitin 2021, organizata kërkimore Allen Institute për AI krijoi Ask Delphi, një softuer ML që gjeneron në mënyrë algoritmike përgjigje për përgjigjet për çdo pyetje etike. Studiuesit pas projektit deklaruan se AI gradualisht po bëhet më e fuqishme dhe e njohur, kështu që shkencëtarët duhet t'u mësojnë etikën këtyre sistemeve ML. Modeli Unicorn ML është themeli i Delphi. Ai u formulua për të kryer arsyetimin "arsyes të shëndoshë", të tillë si zgjedhja e përfundimit më të mundshëm të një vargu teksti. 

    Për më tepër, studiuesit përdorën 'Commonsense Norm Bank'. Kjo bankë përbëhet nga 1.7 milionë shembuj të vlerësimeve etike të njerëzve nga vende si Reddit. Si rezultat, prodhimi i Delphi ishte një qese e përzier. Delphi iu përgjigj disa pyetjeve në mënyrë të arsyeshme (p.sh., barazia midis burrave dhe grave), ndërsa, për disa tema, Delphi ishte plotësisht fyes (p.sh., gjenocidi është i pranueshëm për sa kohë që i bën njerëzit të lumtur).

    Megjithatë, Delphi AI po mëson nga përvojat e saj dhe duket se po përditëson përgjigjet e saj bazuar në reagimet. Disa ekspertë janë të shqetësuar nga përdorimi publik dhe i hapur i hulumtimit, duke pasur parasysh se modeli është në progres dhe është i prirur për përgjigje të çrregullta. Kur Ask Delphi debutoi, Mar Hicks, një profesor i Historisë në Illinois Tech i specializuar në gjininë, punën dhe historinë e informatikës, tha se ishte neglizhencë e studiuesve që t'i ftonin njerëzit ta përdornin atë, duke marrë parasysh që Delphi dha menjëherë përgjigje jashtëzakonisht joetike dhe disa absurditet i plotë. 

    Në 2023, Pjesa tjetër e Botës kreu një studim mbi paragjykimet në gjeneratorët e imazheve të AI. Duke përdorur Midjourney, studiuesit zbuluan se imazhet e krijuara pohojnë stereotipet ekzistuese. Për më tepër, kur OpenAI aplikoi filtra në të dhënat e trajnimit për modelin e tij të gjenerimit të imazheve DALL-E 2, ai intensifikoi pa dashje paragjykimet në lidhje me gjininë.

    Implikimet e të dhënave problematike të trajnimit

    Implikimet më të gjera të të dhënave problematike të trajnimit mund të përfshijnë: 

    • Paragjykime të përforcuara në projektet kërkimore, shërbimet dhe zhvillimin e programeve. Të dhënat problematike të trajnimit janë veçanërisht shqetësuese nëse përdoren në institucionet e zbatimit të ligjit dhe bankat (p.sh. duke synuar negativisht grupet e pakicave).
    • Rritja e investimeve dhe zhvillimit në rritjen dhe asortimentin e të dhënave të trajnimit. 
    • Më shumë qeveri shtojnë rregulloret për të kufizuar mënyrën se si korporatat zhvillojnë, shesin dhe përdorin të dhënat e trajnimit për iniciativa të ndryshme tregtare.
    • Më shumë biznese që krijojnë departamente të etikës për të siguruar që projektet e fuqizuara nga sistemet e AI të ndjekin udhëzimet etike.
    • Shqyrtim i zgjeruar mbi përdorimin e AI në kujdesin shëndetësor që çon në qeverisje më të rreptë të të dhënave, duke siguruar privatësinë e pacientit dhe aplikimin etik të AI.
    • Rritja e bashkëpunimit të sektorit publik dhe privat për të nxitur arsimimin e AI, duke pajisur fuqinë punëtore me aftësi për një të ardhme të dominuar nga AI.
    • Rritja e kërkesës për mjetet e transparencës së AI, duke udhëhequr kompanitë që t'i japin përparësi shpjegueshmërisë në sistemet e AI për mirëkuptimin dhe besimin e konsumatorëve.

    Pyetje që duhen marrë parasysh

    • Si mund të shmangin organizatat përdorimin e të dhënave problematike të trajnimit?
    • Cilat janë pasojat e tjera të mundshme të të dhënave joetike të trajnimit?