Ongelmalliset harjoitustiedot: Kun tekoälylle opetetaan puolueellista dataa

KUVAKrediitti:
Kuva pistetilanne
iStock

Ongelmalliset harjoitustiedot: Kun tekoälylle opetetaan puolueellista dataa

Ongelmalliset harjoitustiedot: Kun tekoälylle opetetaan puolueellista dataa

Alaotsikon teksti
Tekoälyjärjestelmiin tuodaan joskus subjektiivista dataa, joka voi vaikuttaa siihen, miten se toimii ja tekee päätöksiä.
    • Kirjoittaja:
    • tekijän nimi
      Quantumrun Foresight
    • Lokakuu 14, 2022

    Havainnon yhteenveto

    Olemme mitä opimme ja sisäisämme; tämä sana koskee myös tekoälyä (AI). Epätäydellisillä, puolueellisilla ja epäeettisillä tiedoilla syötetyt koneoppimismallit (ML) tekevät lopulta ongelmallisia päätöksiä ja ehdotuksia. Nämä tehokkaat algoritmit voivat sitten vaikuttaa käyttäjien moraaliin ja käsityksiin, jos tutkijat eivät ole varovaisia.

    Ongelmallinen harjoitustietokonteksti

    2010-luvulta lähtien tutkimusryhmiä on tarkasteltu sopimattoman sisällön tai epäeettisesti kerättyjen koulutusaineistojen käytöstä. Esimerkiksi vuonna 2016 Microsoftin MS-Celeb-1M-tietokanta sisälsi 10 miljoonaa kuvaa 100,000 XNUMX eri julkkiksesta. Lisätarkastuksessa kirjeenvaihtajat kuitenkin huomasivat, että monet valokuvat olivat tavallisista ihmisistä poimittuja eri verkkosivustoilta ilman omistajan lupaa tai tietämättä.

    Tästä oivalluksesta huolimatta aineistoa käyttivät edelleen suuret yritykset, kuten Facebook ja kiinalainen kasvojentunnistusyritys SenseTime, jolla on linkkejä osavaltion poliisiin. Vastaavasti Duke Universityn kampuksella kävelevien ihmisten kuvia sisältävä datajoukko (DukeMTMC) ei myöskään kerännyt suostumusta. Lopulta molemmat tietojoukot poistettiin. 

    Korostaakseen ongelmallisten harjoitustietojen haitallisia vaikutuksia Massachusetts Institute of Technologyn (MIT) tutkijat loivat Norman-nimisen tekoälyn, jonka he opettivat suorittamaan kuvien tekstityksen subredditistä, joka korosti graafista väkivaltaa. Sitten tiimi asetti Normanin tavanomaista dataa käyttämällä koulutettua neuroverkkoa vastaan. Tutkijat toimittivat molempiin järjestelmiin Rorschach-mustetta ja pyysivät tekoälyjä kuvaamaan näkemäänsä. Tulokset olivat hämmästyttäviä: missä tavallinen hermoverkko näki "mustavalkoisen valokuvan baseballhanskasta", Norman havaitsi "konekiväärillä murhatun miehen kirkkaassa päivänvalossa". Kokeilu osoitti, että tekoäly ei ole automaattisesti puolueellinen, mutta nämä tiedonsyöttömenetelmät ja niiden tekijöiden motiivit voivat vaikuttaa merkittävästi tekoälyn käyttäytymiseen.

    Häiritsevä vaikutus

    Tutkimusorganisaatio Allen Institute for AI loi vuonna 2021 Ask Delphin, ML-ohjelmiston, joka luo algoritmisesti vastaukset mihin tahansa eettiseen kysymykseen. Projektin takana olevat tutkijat totesivat, että tekoäly on vähitellen tulossa tehokkaammaksi ja tutummaksi, joten tutkijoiden on opetettava näitä ML-järjestelmien etiikkaa. Unicorn ML -malli on Delphin perusta. Se muotoiltiin suorittamaan "maalaisjärkeä" päättelyä, kuten todennäköisimmän tekstin päätteen valitsemista. 

    Lisäksi tutkijat käyttivät "Commonsense Norm Bankia". Tämä pankki koostuu 1.7 miljoonasta esimerkistä ihmisten eettisistä arvioista Redditin kaltaisista paikoista. Tämän seurauksena Delphin tuotanto oli sekalaista. Delphi vastasi joihinkin kysymyksiin järkevästi (esim. miesten ja naisten välinen tasa-arvo), kun taas joissain aiheissa Delphi oli suorastaan ​​loukkaavaa (esim. kansanmurha on hyväksyttävää niin kauan kuin se tekee ihmiset onnelliseksi).

    Delphi AI kuitenkin oppii kokemuksistaan ​​ja näyttää päivittävän vastauksiaan palautteen perusteella. Joitakin asiantuntijoita huolestuttaa tutkimuksen julkinen ja avoin käyttö, koska malli on käynnissä ja on altis satunnaisille vastauksille. Kun Ask Delphi debytoi, Mar Hicks, Illinois Techin historian professori, joka on erikoistunut sukupuoleen, työvoimaan ja tietojenkäsittelyn historiaan, sanoi, että tutkijoiden laiminlyönti kutsui ihmisiä käyttämään sitä, koska Delphi antoi välittömästi erittäin epäeettisiä vastauksia ja jotkut täyttä hölynpölyä. 

    Vuonna 2023, Muu maailma suoritti tutkimuksen harhasta tekoälykuvageneraattoreissa. Midjourneyn avulla tutkijat havaitsivat, että luodut kuvat vahvistavat olemassa olevia stereotypioita. Lisäksi kun OpenAI käytti suodattimia DALL-E 2 -kuvanluontimallinsa harjoitustietoihin, se lisäsi tahattomasti sukupuoleen liittyviä harhoja.

    Ongelmallisten harjoitustietojen vaikutukset

    Ongelmallisten harjoitustietojen laajempia vaikutuksia voivat olla: 

    • Vahvistettu ennakkoluuloja tutkimusprojekteissa, palveluissa ja ohjelmakehityksessä. Ongelmalliset koulutustiedot ovat erityisen huolestuttavia, jos niitä käytetään lainvalvonta- ja pankkilaitoksissa (esim. haitallisesti vähemmistöryhmiin).
    • Lisääntynyt panostus ja kehitys koulutusdatan kasvuun ja valikoimaan. 
    • Yhä useammat hallitukset lisäävät säännöksiä rajoittaakseen sitä, miten yritykset kehittävät, myyvät ja käyttävät koulutustietoja erilaisiin kaupallisiin aloitteisiin.
    • Yhä useammat yritykset perustavat eettisiä osastoja varmistaakseen, että tekoälyjärjestelmien tuottamat projektit noudattavat eettisiä ohjeita.
    • Tekoälyn käytön tehostettu valvonta terveydenhuollossa johtaa tiukempaan tiedonhallintaan, varmistaa potilaiden yksityisyyden ja eettisen tekoälysovelluksen.
    • Lisääntynyt julkisen ja yksityisen sektorin yhteistyö tekoälylukutaidon edistämiseksi ja antaa työntekijöille taitoja tekoälyn hallitsemaa tulevaisuutta varten.
    • Tekoälyn läpinäkyvyystyökalujen kysyntä on kasvanut, mikä saa yritykset asettamaan selitettävyyden etusijalle tekoälyjärjestelmissä kuluttajien ymmärryksen ja luottamuksen vuoksi.

    Pohdittavia kysymyksiä

    • Miten organisaatiot voisivat välttää ongelmallisten koulutustietojen käyttämisen?
    • Mitä muita mahdollisia seurauksia epäeettisillä koulutustiedoilla on?