Quantumrun

CRÉDITO DA IMAXE:

iStock

Datos de adestramento problemáticos: cando a IA se ensina datos sesgados

Ás veces introdúcense sistemas de intelixencia artificial con datos subxectivos que poden afectar a forma en que actúa e toma decisións.

autor:
nome do autor
Previsión de Quantumrun
Outubro 14, 2022

Resumo de insight

Somos o que aprendemos e interiorizamos; este dito tamén se aplica á intelixencia artificial (IA). Os modelos de aprendizaxe automática (ML) alimentados con datos incompletos, sesgados e pouco éticos tomarán finalmente decisións e suxestións problemáticas. Estes poderosos algoritmos poden influír na moral e as percepcións dos usuarios se os investigadores non teñen coidado.

Contexto de datos de formación problemático

Desde a década de 2010, os equipos de investigación foron examinados por utilizar conxuntos de datos de formación con contido inadecuado ou reunidos de forma non ética. Por exemplo, en 2016, a base de datos MS-Celeb-1M de Microsoft incluía 10 millóns de imaxes de 100,000 famosos diferentes. Non obstante, tras unha inspección máis profunda, os correspondentes descubriron que moitas fotos eran de persoas comúns extraídas de varios sitios web sen o consentimento nin o coñecemento do propietario.

A pesar desta constatación, o conxunto de datos seguiu sendo utilizado por grandes empresas como Facebook e SenseTime, unha empresa chinesa de recoñecemento facial con vínculos coa policía estatal. Do mesmo xeito, un conxunto de datos que contén imaxes de persoas que camiñan polo campus da Universidade de Duke (DukeMTMC) tampouco recolleu o consentimento. Finalmente, ambos os conxuntos de datos foron eliminados.

Para destacar os efectos prexudiciais dos datos problemáticos de adestramento, os investigadores do Instituto Tecnolóxico de Massachusetts (MIT) crearon unha IA chamada Norman á que ensinaron a realizar subtítulos de imaxes a partir dun subreddit que destacaba a violencia gráfica. O equipo colocou a Norman contra unha rede neuronal adestrada usando datos convencionais. Os investigadores forneceron a ambos os sistemas con manchas de tinta de Rorschach e pedíronlle ás IA que describisen o que viron. Os resultados foron abraiantes: onde a rede neuronal estándar viu "unha foto en branco e negro dunha luva de béisbol", Norman observou "un home asasinado por unha metralleta a plena luz do día". O experimento demostrou que a IA non está sesgada automaticamente, pero eses métodos de entrada de datos e os motivos dos seus creadores poden afectar significativamente o comportamento dunha IA.

Impacto perturbador

En 2021, a organización de investigación Allen Institute for AI creou Ask Delphi, un software de ML que xera algoritmicamente respostas para respostas a calquera pregunta ética. Os investigadores detrás do proxecto afirmaron que a IA é cada vez máis poderosa e familiar, polo que os científicos deben ensinar a ética destes sistemas de ML. O modelo Unicorn ML é a base de Delphi. Formulouse para levar a cabo razoamentos de "sentido común", como seleccionar o final máis probable dunha cadea de texto.

Ademais, os investigadores utilizaron o 'Commonsense Norm Bank'. Este banco consta de 1.7 millóns de exemplos de avaliacións éticas de persoas de lugares como Reddit. Como resultado, a saída de Delphi foi unha bolsa mixta. Delphi respondeu razoablemente a algunhas preguntas (por exemplo, a igualdade entre homes e mulleres), mentres que, nalgúns temas, Delphi foi francamente ofensivo (por exemplo, o xenocidio é aceptable sempre que fixera feliz á xente).

Non obstante, a Delphi AI está a aprender das súas experiencias e parece estar actualizando as súas respostas en función dos comentarios. Algúns expertos están preocupados polo uso público e aberto da investigación, tendo en conta que o modelo está en curso e é propenso a respostas erráticas. Cando se estreou Ask Delphi, Mar Hicks, profesora de Historia en Illinois Tech especializada en xénero, traballo e historia da informática, dixo que foi neglixente dos investigadores invitar á xente a usalo, tendo en conta que Delphi proporcionou inmediatamente respostas moi pouco éticas e algunhas total tontería.

En 2023, Resto do mundo realizou un estudo sobre o sesgo nos xeradores de imaxes de IA. Usando Midjourney, os investigadores descubriron que as imaxes xeradas afirman os estereotipos existentes. Ademais, cando OpenAI aplicou filtros aos datos de adestramento para o seu modelo de xeración de imaxes DALL-E 2, intensificou sen querer os prexuízos relacionados co xénero.

Implicacións dos datos problemáticos de formación

As implicacións máis amplas dos datos de adestramento problemáticos poden incluír:

Sesgos reforzados nos proxectos de investigación, servizos e desenvolvemento de programas. Os datos de adestramento problemáticos son especialmente preocupantes se se usan en institucións bancarias e policiais (por exemplo, orientando negativamente a grupos minoritarios).
Aumento do investimento e desenvolvemento no crecemento e variedade de datos de formación.
Máis gobernos aumentan as regulacións para limitar como as corporacións desenvolven, venden e usan os datos de formación para varias iniciativas comerciais.
Máis empresas establecen departamentos de ética para garantir que os proxectos impulsados por sistemas de intelixencia artificial seguen pautas éticas.
Escrutinio mellorado do uso da intelixencia artificial na asistencia sanitaria que leva a un goberno de datos máis estrito, garantindo a privacidade do paciente e unha aplicación de intelixencia artificial ética.
Aumento da colaboración dos sectores público e privado para fomentar a alfabetización en IA, dotando á forza laboral de habilidades para un futuro dominado pola IA.
Aumento da demanda de ferramentas de transparencia de IA, o que leva ás empresas a priorizar a explicabilidade nos sistemas de IA para a comprensión e a confianza dos consumidores.