Problematiese opleidingsdata: Wanneer KI bevooroordeelde data geleer word

BEELDKREDIET:
Image krediet
iStock

Problematiese opleidingsdata: Wanneer KI bevooroordeelde data geleer word

Problematiese opleidingsdata: Wanneer KI bevooroordeelde data geleer word

Subopskrif teks
Kunsmatige intelligensie-stelsels word soms ingestel met subjektiewe data wat kan beïnvloed hoe dit optree en besluite neem.
    • Author:
    • Author naam
      Quantumrun Foresight
    • Oktober 14, 2022

    Insig opsomming

    Ons is wat ons leer en internaliseer; hierdie dictum geld ook vir kunsmatige intelligensie (KI). Masjienleer (ML)-modelle gevoed met onvolledige, bevooroordeelde en onetiese data sal uiteindelik problematiese besluite en voorstelle maak. Hierdie kragtige algoritmes kan dan gebruikers se moraliteit en persepsies beïnvloed as navorsers nie versigtig is nie.

    Problematiese opleidingsdatakonteks

    Sedert die 2010's is navorsingspanne ondersoek vir die gebruik van opleidingdatastelle met ongeskikte inhoud of oneties ingesamel. Byvoorbeeld, in 2016 het Microsoft se MS-Celeb-1M-databasis 10 miljoen beelde van 100,000 XNUMX verskillende bekendes ingesluit. By verdere inspeksie het korrespondente egter ontdek dat baie foto's van gewone mense was wat van verskeie webwerwe getrek is sonder die eienaar se toestemming of medewete.

    Ten spyte van hierdie besef, het die datastel steeds gebruik word deur groot maatskappye soos Facebook en SenseTime, 'n Chinese gesigsherkenningsmaatskappy met skakels met die staatspolisie. Net so het 'n datastel wat foto's bevat van mense wat op Duke Universiteit se kampus (DukeMTMC) stap, ook nie toestemming ingesamel nie. Uiteindelik is beide datastelle verwyder. 

    Om die skadelike gevolge van problematiese opleidingsdata uit te lig, het navorsers by die Massachusetts Institute of Technology (MIT) 'n KI genaamd Norman geskep wat hulle geleer het om beeldonderskrifte uit 'n subreddit uit te voer wat grafiese geweld beklemtoon. Die span het Norman toe geplaas teen 'n neurale netwerk wat opgelei is met gebruik van konvensionele data. Die navorsers het beide stelsels van Rorschach-inkvlekke voorsien en die KI's gevra om te beskryf wat hulle gesien het. Die resultate was verstommend: waar die standaard neurale netwerk "'n swart en wit foto van 'n bofbalhandskoen" gesien het, het Norman waargeneem "'n man wat helder oordag met 'n masjiengeweer vermoor is." Die eksperiment het getoon dat KI nie outomaties bevooroordeeld is nie, maar daardie data-invoermetodes en hul skeppers se motiewe kan 'n KI se gedrag aansienlik beïnvloed.

    Ontwrigtende impak

    In 2021 het die navorsingsorganisasie Allen Institute for AI Ask Delphi geskep, 'n ML-sagteware wat algoritmies antwoorde genereer vir antwoorde op enige etiese vraag. Die navorsers agter die projek het gesê dat KI geleidelik kragtiger en bekender word, daarom moet wetenskaplikes hierdie ML-stelsels etiek leer. Die Unicorn ML-model is die grondslag van Delphi. Dit is geformuleer om "gesonde verstand" redenasies uit te voer, soos om die mees waarskynlike einde van 'n teksstring te kies. 

    Verder het navorsers die 'Commonsense Norm Bank' gebruik. Hierdie bank bestaan ​​uit 1.7 miljoen voorbeelde van mense se etiese evaluasies van plekke soos Reddit. Gevolglik was Delphi se uitset 'n gemengde saak. Delphi het sommige vrae redelik beantwoord (bv. gelykheid tussen mans en vroue), terwyl Delphi oor sommige onderwerpe heeltemal aanstootlik was (bv. volksmoord is aanvaarbaar solank dit mense gelukkig gemaak het).

    Die Delphi KI leer egter uit sy ervarings en blyk sy antwoorde op te dateer op grond van terugvoer. Sommige kenners is ontsteld oor die navorsing se openbare en oop gebruik, aangesien die model aan die gang is en geneig is tot wisselvallige antwoorde. Toe Ask Delphi debuteer, het Mar Hicks, 'n professor in geskiedenis aan Illinois Tech wat spesialiseer in geslag, arbeid en die geskiedenis van rekenaars, gesê dat dit nalatig was van navorsers om mense uit te nooi om dit te gebruik, aangesien Delphi onmiddellik uiters onetiese antwoorde verskaf het en sommige volledige nonsens. 

    In 2023, Res van die wêreld 'n studie gedoen oor vooroordeel in KI-beeldopwekkers. Met behulp van Midjourney het navorsers ontdek dat die gegenereerde beelde bestaande stereotipes bevestig. Boonop, toe OpenAI filters op die opleidingsdata vir sy DALL-E 2-beeldgenereringsmodel toegepas het, het dit onbedoelde vooroordele wat met geslag verband hou, verskerp.

    Implikasies van problematiese opleidingsdata

    Wyer implikasies van problematiese opleidingsdata kan die volgende insluit: 

    • Versterkte vooroordele in navorsingsprojekte, dienste en programontwikkeling. Problematiese opleidingsdata is veral kommerwekkend as dit in wetstoepassing en bankinstellings gebruik word (bv. om minderheidsgroepe nadelig te teiken).
    • Verhoogde belegging en ontwikkeling in die groei en verskeidenheid van opleidingsdata. 
    • Meer regerings verhoog regulasies om te beperk hoe korporasies opleidingsdata ontwikkel, verkoop en gebruik vir verskeie kommersiële inisiatiewe.
    • Meer besighede wat etiese departemente stig om te verseker dat projekte wat deur KI-stelsels aangedryf word etiese riglyne volg.
    • Verbeterde ondersoek na die gebruik van KI in gesondheidsorg wat lei tot strenger databestuur, wat pasiëntprivaatheid en etiese KI-toepassing verseker.
    • Verhoogde samewerking in die openbare en private sektor om KI-geletterdheid te bevorder, wat die arbeidsmag toerus met vaardighede vir 'n KI-gedomineerde toekoms.
    • Toename in aanvraag na KI-deursigtigheidsinstrumente, wat maatskappye daartoe lei om verduidelikbaarheid in KI-stelsels te prioritiseer vir verbruikersbegrip en -vertroue.

    Vrae om te oorweeg

    • Hoe kan organisasies die gebruik van problematiese opleidingsdata vermy?
    • Wat is ander potensiële gevolge van onetiese opleidingsdata?