Ongelmalliset harjoitustiedot: Kun tekoälylle opetetaan puolueellista dataa
Ongelmalliset harjoitustiedot: Kun tekoälylle opetetaan puolueellista dataa
Ongelmalliset harjoitustiedot: Kun tekoälylle opetetaan puolueellista dataa
- Kirjoittaja:
- Lokakuu 14, 2022
Havainnon yhteenveto
Olemme mitä opimme ja sisäisämme; tämä sana koskee myös tekoälyä (AI). Epätäydellisillä, puolueellisilla ja epäeettisillä tiedoilla syötetyt koneoppimismallit (ML) tekevät lopulta ongelmallisia päätöksiä ja ehdotuksia. Nämä tehokkaat algoritmit voivat sitten vaikuttaa käyttäjien moraaliin ja käsityksiin, jos tutkijat eivät ole varovaisia.
Ongelmallinen harjoitustietokonteksti
2010-luvulta lähtien tutkimusryhmiä on tarkasteltu sopimattoman sisällön tai epäeettisesti kerättyjen koulutusaineistojen käytöstä. Esimerkiksi vuonna 2016 Microsoftin MS-Celeb-1M-tietokanta sisälsi 10 miljoonaa kuvaa 100,000 XNUMX eri julkkiksesta. Lisätarkastuksessa kirjeenvaihtajat kuitenkin huomasivat, että monet valokuvat olivat tavallisista ihmisistä poimittuja eri verkkosivustoilta ilman omistajan lupaa tai tietämättä.
Tästä oivalluksesta huolimatta aineistoa käyttivät edelleen suuret yritykset, kuten Facebook ja kiinalainen kasvojentunnistusyritys SenseTime, jolla on linkkejä osavaltion poliisiin. Vastaavasti Duke Universityn kampuksella kävelevien ihmisten kuvia sisältävä datajoukko (DukeMTMC) ei myöskään kerännyt suostumusta. Lopulta molemmat tietojoukot poistettiin.
Korostaakseen ongelmallisten harjoitustietojen haitallisia vaikutuksia Massachusetts Institute of Technologyn (MIT) tutkijat loivat Norman-nimisen tekoälyn, jonka he opettivat suorittamaan kuvien tekstityksen subredditistä, joka korosti graafista väkivaltaa. Sitten tiimi asetti Normanin tavanomaista dataa käyttämällä koulutettua neuroverkkoa vastaan. Tutkijat toimittivat molempiin järjestelmiin Rorschach-mustetta ja pyysivät tekoälyjä kuvaamaan näkemäänsä. Tulokset olivat hämmästyttäviä: missä tavallinen hermoverkko näki "mustavalkoisen valokuvan baseballhanskasta", Norman havaitsi "konekiväärillä murhatun miehen kirkkaassa päivänvalossa". Kokeilu osoitti, että tekoäly ei ole automaattisesti puolueellinen, mutta nämä tiedonsyöttömenetelmät ja niiden tekijöiden motiivit voivat vaikuttaa merkittävästi tekoälyn käyttäytymiseen.
Häiritsevä vaikutus
Tutkimusorganisaatio Allen Institute for AI loi vuonna 2021 Ask Delphin, ML-ohjelmiston, joka luo algoritmisesti vastaukset mihin tahansa eettiseen kysymykseen. Projektin takana olevat tutkijat totesivat, että tekoäly on vähitellen tulossa tehokkaammaksi ja tutummaksi, joten tutkijoiden on opetettava näitä ML-järjestelmien etiikkaa. Unicorn ML -malli on Delphin perusta. Se muotoiltiin suorittamaan "maalaisjärkeä" päättelyä, kuten todennäköisimmän tekstin päätteen valitsemista.
Lisäksi tutkijat käyttivät "Commonsense Norm Bankia". Tämä pankki koostuu 1.7 miljoonasta esimerkistä ihmisten eettisistä arvioista Redditin kaltaisista paikoista. Tämän seurauksena Delphin tuotanto oli sekalaista. Delphi vastasi joihinkin kysymyksiin järkevästi (esim. miesten ja naisten välinen tasa-arvo), kun taas joissain aiheissa Delphi oli suorastaan loukkaavaa (esim. kansanmurha on hyväksyttävää niin kauan kuin se tekee ihmiset onnelliseksi).
Delphi AI kuitenkin oppii kokemuksistaan ja näyttää päivittävän vastauksiaan palautteen perusteella. Joitakin asiantuntijoita huolestuttaa tutkimuksen julkinen ja avoin käyttö, koska malli on käynnissä ja on altis satunnaisille vastauksille. Kun Ask Delphi debytoi, Mar Hicks, Illinois Techin historian professori, joka on erikoistunut sukupuoleen, työvoimaan ja tietojenkäsittelyn historiaan, sanoi, että tutkijoiden laiminlyönti kutsui ihmisiä käyttämään sitä, koska Delphi antoi välittömästi erittäin epäeettisiä vastauksia ja jotkut täyttä hölynpölyä.
Vuonna 2023, Muu maailma suoritti tutkimuksen harhasta tekoälykuvageneraattoreissa. Midjourneyn avulla tutkijat havaitsivat, että luodut kuvat vahvistavat olemassa olevia stereotypioita. Lisäksi kun OpenAI käytti suodattimia DALL-E 2 -kuvanluontimallinsa harjoitustietoihin, se lisäsi tahattomasti sukupuoleen liittyviä harhoja.
Ongelmallisten harjoitustietojen vaikutukset
Ongelmallisten harjoitustietojen laajempia vaikutuksia voivat olla:
- Vahvistettu ennakkoluuloja tutkimusprojekteissa, palveluissa ja ohjelmakehityksessä. Ongelmalliset koulutustiedot ovat erityisen huolestuttavia, jos niitä käytetään lainvalvonta- ja pankkilaitoksissa (esim. haitallisesti vähemmistöryhmiin).
- Lisääntynyt panostus ja kehitys koulutusdatan kasvuun ja valikoimaan.
- Yhä useammat hallitukset lisäävät säännöksiä rajoittaakseen sitä, miten yritykset kehittävät, myyvät ja käyttävät koulutustietoja erilaisiin kaupallisiin aloitteisiin.
- Yhä useammat yritykset perustavat eettisiä osastoja varmistaakseen, että tekoälyjärjestelmien tuottamat projektit noudattavat eettisiä ohjeita.
- Tekoälyn käytön tehostettu valvonta terveydenhuollossa johtaa tiukempaan tiedonhallintaan, varmistaa potilaiden yksityisyyden ja eettisen tekoälysovelluksen.
- Lisääntynyt julkisen ja yksityisen sektorin yhteistyö tekoälylukutaidon edistämiseksi ja antaa työntekijöille taitoja tekoälyn hallitsemaa tulevaisuutta varten.
- Tekoälyn läpinäkyvyystyökalujen kysyntä on kasvanut, mikä saa yritykset asettamaan selitettävyyden etusijalle tekoälyjärjestelmissä kuluttajien ymmärryksen ja luottamuksen vuoksi.
Pohdittavia kysymyksiä
- Miten organisaatiot voisivat välttää ongelmallisten koulutustietojen käyttämisen?
- Mitä muita mahdollisia seurauksia epäeettisillä koulutustiedoilla on?
Insight-viittauksia
Tässä oivalluksessa viitattiin seuraaviin suosittuihin ja institutionaalisiin linkkeihin: