Dades d'entrenament problemàtics: quan la IA s'ensenya dades esbiaixades

CRÈDIT DE LA IMATGE:
Crèdit d'imatge
iStock

Dades d'entrenament problemàtics: quan la IA s'ensenya dades esbiaixades

Dades d'entrenament problemàtics: quan la IA s'ensenya dades esbiaixades

Text del subtítol
De vegades s'introdueixen sistemes d'intel·ligència artificial amb dades subjectives que poden afectar la seva actuació i la seva presa de decisions.
    • autor:
    • nom de l'autor
      Previsió de Quantumrun
    • Octubre 14, 2022

    Resum d'informació

    Som allò que aprenem i interioritzem; aquest dicta també s'aplica a la intel·ligència artificial (IA). Els models d'aprenentatge automàtic (ML) alimentats amb dades incompletes, esbiaixades i poc ètiques finalment prendran decisions i suggeriments problemàtiques. Aquests potents algorismes poden influir en la moral i les percepcions dels usuaris si els investigadors no tenen cura.

    Context de dades d'entrenament problemàtic

    Des de la dècada de 2010, els equips de recerca han estat examinats per utilitzar conjunts de dades de formació amb contingut inadequat o recopilats de manera poc ètica. Per exemple, el 2016, la base de dades MS-Celeb-1M de Microsoft incloïa 10 milions d'imatges de 100,000 celebritats diferents. Tanmateix, després d'una inspecció addicional, els corresponsals van descobrir que moltes fotos eren de persones corrents extretes de diversos llocs web sense el consentiment o el coneixement del propietari.

    Tot i això, el conjunt de dades va continuar sent utilitzat per grans empreses com Facebook i SenseTime, una empresa xinesa de reconeixement facial amb enllaços amb la policia estatal. De la mateixa manera, un conjunt de dades que contenia imatges de persones caminant pel campus de la Universitat de Duke (DukeMTMC) tampoc no va recollir el consentiment. Finalment, es van eliminar tots dos conjunts de dades. 

    Per destacar els efectes perjudicials de les dades d'entrenament problemàtiques, els investigadors de l'Institut Tecnològic de Massachusetts (MIT) van crear una intel·ligència artificial anomenada Norman que van ensenyar a realitzar subtítols d'imatges d'un subreddit que destacava la violència gràfica. Després, l'equip va col·locar Norman contra una xarxa neuronal entrenada amb dades convencionals. Els investigadors van subministrar els dos sistemes amb taques de tinta de Rorschach i van demanar a les IA que descriguessin el que van veure. Els resultats van ser sorprenents: on la xarxa neuronal estàndard va veure "una foto en blanc i negre d'un guant de beisbol", Norman va observar "un home assassinat per una metralladora a plena llum del dia". L'experiment va demostrar que la IA no està esbiaixada automàticament, però aquests mètodes d'entrada de dades i els motius dels seus creadors poden afectar significativament el comportament d'una IA.

    Impacte disruptiu

    L'any 2021, l'organització de recerca Allen Institute for AI va crear Ask Delphi, un programari de ML que genera algorítmicament respostes per a qualsevol pregunta ètica. Els investigadors del projecte van afirmar que la IA s'està tornant cada cop més potent i familiar, de manera que els científics han d'ensenyar l'ètica dels sistemes de ML. El model Unicorn ML és la base de Delphi. Va ser formulat per dur a terme raonaments de "sentit comú", com ara seleccionar el final més probable d'una cadena de text. 

    A més, els investigadors van utilitzar el "Commonsense Norm Bank". Aquest banc consta d'1.7 milions d'exemples d'avaluacions ètiques de la gent de llocs com Reddit. Com a resultat, la producció de Delphi va ser una bossa mixta. Delphi va respondre algunes preguntes de manera raonable (per exemple, la igualtat entre homes i dones), mentre que, en alguns temes, Delphi va ser francament ofensiu (per exemple, el genocidi és acceptable sempre que fes feliç a la gent).

    Tanmateix, la intel·ligència artificial de Delphi està aprenent de les seves experiències i sembla que està actualitzant les seves respostes en funció dels comentaris. Alguns experts estan preocupats per l'ús públic i obert de la investigació, tenint en compte que el model està en curs i és propens a respostes erràtiques. Quan va debutar Ask Delphi, Mar Hicks, professora d'història a Illinois Tech especialitzada en gènere, treball i història de la informàtica, va dir que va ser negligent dels investigadors convidar a la gent a utilitzar-lo, tenint en compte que Delphi va donar immediatament respostes extremadament poc ètiques i algunes total tonteria. 

    En 2023, Resta del món va realitzar un estudi sobre el biaix en els generadors d'imatges d'IA. Mitjançant Midjourney, els investigadors van descobrir que les imatges generades afirmen els estereotips existents. A més, quan OpenAI va aplicar filtres a les dades d'entrenament per al seu model de generació d'imatges DALL-E 2, va intensificar sense voler els biaixos relacionats amb el gènere.

    Implicacions de les dades d'entrenament problemàtiques

    Les implicacions més àmplies de les dades d'entrenament problemàtiques poden incloure: 

    • Biaixos reforçats en projectes de recerca, serveis i desenvolupament de programes. Les dades d'entrenament problemàtics són especialment preocupants si s'utilitzen en institucions bancàries i cossos de seguretat (p. ex., orientació negativa a grups minoritaris).
    • Augment de la inversió i desenvolupament en el creixement i l'assortiment de dades de formació. 
    • Més governs augmenten les regulacions per limitar com les corporacions desenvolupen, venen i utilitzen dades de formació per a diverses iniciatives comercials.
    • Més empreses que estableixen departaments d'ètica per garantir que els projectes impulsats per sistemes d'IA segueixen les directrius ètiques.
    • Escrutini millorat sobre l'ús de la IA a l'assistència sanitària que condueix a un govern de dades més estricte, garantint la privadesa del pacient i una aplicació ètica d'IA.
    • Augment de la col·laboració del sector públic i privat per fomentar l'alfabetització en IA, dotant la força de treball amb habilitats per a un futur dominat per la IA.
    • Augment de la demanda d'eines de transparència d'IA, que porta les empreses a prioritzar l'explicabilitat en els sistemes d'IA per a la comprensió i la confiança dels consumidors.

    Preguntes a tenir en compte

    • Com podrien les organitzacions evitar utilitzar dades de formació problemàtiques?
    • Quines són les altres conseqüències potencials de les dades d'entrenament poc ètiques?