Datos de entrenamiento problemáticos: cuando a la IA se le enseñan datos sesgados

CREDITO DE IMAGEN:
Crédito de la imagen
iStock

Datos de entrenamiento problemáticos: cuando a la IA se le enseñan datos sesgados

Datos de entrenamiento problemáticos: cuando a la IA se le enseñan datos sesgados

Subtítulo de texto
Los sistemas de inteligencia artificial a veces se introducen con datos subjetivos que pueden afectar la forma en que actúa y toma decisiones.
    • Escrito por:
    • Nombre del autor
      Previsión Quantumrun
    • 14 de Octubre de 2022

    Resumen de información

    Somos lo que aprendemos e interiorizamos; este dicho también se aplica a la inteligencia artificial (IA). Los modelos de aprendizaje automático (ML) alimentados con datos incompletos, sesgados y poco éticos, en última instancia, tomarán decisiones y sugerencias problemáticas. Estos poderosos algoritmos pueden influir en la moralidad y las percepciones de los usuarios si los investigadores no tienen cuidado.

    Contexto de datos de entrenamiento problemático

    Desde la década de 2010, los equipos de investigación han sido examinados por utilizar conjuntos de datos de entrenamiento con contenido inadecuado o recopilados de manera poco ética. Por ejemplo, en 2016, la base de datos MS-Celeb-1M de Microsoft incluía 10 millones de imágenes de 100,000 celebridades diferentes. Sin embargo, tras una inspección más detallada, los corresponsales descubrieron que muchas fotografías eran de personas comunes y corrientes extraídas de varios sitios web sin el consentimiento o conocimiento del propietario.

    A pesar de esta constatación, el conjunto de datos siguió siendo utilizado por importantes empresas como Facebook y SenseTime, una empresa china de reconocimiento facial con vínculos con la policía estatal. De manera similar, un conjunto de datos que contiene fotografías de personas caminando por el campus de la Universidad de Duke (DukeMTMC) tampoco obtuvo el consentimiento. Finalmente, se eliminaron ambos conjuntos de datos. 

    Para resaltar los efectos dañinos de los datos de entrenamiento problemáticos, los investigadores del Instituto Tecnológico de Massachusetts (MIT) crearon una IA llamada Norman a la que enseñaron a realizar subtítulos de imágenes de un subreddit que destacaba la violencia gráfica. Luego, el equipo colocó a Norman contra una red neuronal entrenada con datos convencionales. Los investigadores suministraron a ambos sistemas manchas de tinta de Rorschach y pidieron a las IA que describieran lo que vieron. Los resultados fueron sorprendentes: donde la red neuronal estándar vio "una foto en blanco y negro de un guante de béisbol", Norman observó "un hombre asesinado por una ametralladora a plena luz del día". El experimento demostró que la IA no está automáticamente sesgada, pero esos métodos de entrada de datos y los motivos de sus creadores pueden afectar significativamente el comportamiento de una IA.

    Impacto disruptivo

    En 2021, la organización de investigación Allen Institute for AI creó Ask Delphi, un software de aprendizaje automático que genera algorítmicamente respuestas a cualquier pregunta ética. Los investigadores detrás del proyecto afirmaron que la IA se está volviendo gradualmente más poderosa y familiar, por lo que los científicos deben enseñar la ética a estos sistemas de aprendizaje automático. El modelo Unicorn ML es la base de Delphi. Fue formulado para llevar a cabo un razonamiento de "sentido común", como seleccionar el final más probable de una cadena de texto. 

    Además, los investigadores utilizaron el "Banco de normas de sentido común". Este banco consta de 1.7 millones de ejemplos de evaluaciones éticas de personas de lugares como Reddit. Como resultado, la producción de Delphi fue heterogénea. Delphi respondió razonablemente algunas preguntas (por ejemplo, la igualdad entre hombres y mujeres), mientras que, en algunos temas, Delphi fue francamente ofensivo (por ejemplo, el genocidio es aceptable siempre que haga feliz a la gente).

    Sin embargo, la IA de Delphi está aprendiendo de sus experiencias y parece estar actualizando sus respuestas en función de la retroalimentación. Algunos expertos están preocupados por el uso público y abierto de la investigación, considerando que el modelo está en progreso y es propenso a respuestas erráticas. Cuando debutó Ask Delphi, Mar Hicks, profesora de Historia en Illinois Tech especializada en género, trabajo e historia de la informática, dijo que fue negligente por parte de los investigadores invitar a la gente a usarlo, considerando que Delphi proporcionó inmediatamente respuestas extremadamente poco éticas y algunas completa tontería. 

    En 2023, Resto del mundo realizó un estudio sobre el sesgo en los generadores de imágenes de IA. Utilizando Midjourney, los investigadores descubrieron que las imágenes generadas afirman los estereotipos existentes. Además, cuando OpenAI aplicó filtros a los datos de entrenamiento para su modelo de generación de imágenes DALL-E 2, intensificó involuntariamente los sesgos relacionados con el género.

    Implicaciones de los datos de entrenamiento problemáticos

    Las implicaciones más amplias de los datos de entrenamiento problemáticos pueden incluir: 

    • Sesgos reforzados en proyectos de investigación, servicios y desarrollo de programas. Los datos de capacitación problemáticos son especialmente preocupantes si se utilizan en instituciones bancarias y de aplicación de la ley (p. ej., dirigidos negativamente a grupos minoritarios).
    • Mayor inversión y desarrollo en el crecimiento y surtido de datos de entrenamiento. 
    • Más gobiernos aumentan las regulaciones para limitar la forma en que las corporaciones desarrollan, venden y usan datos de capacitación para diversas iniciativas comerciales.
    • Más empresas que establecen departamentos de ética para garantizar que los proyectos impulsados ​​por sistemas de IA sigan pautas éticas.
    • Un mayor escrutinio sobre el uso de la IA en la atención sanitaria conduce a una gobernanza de datos más estricta, garantizando la privacidad del paciente y una aplicación ética de la IA.
    • Mayor colaboración entre los sectores público y privado para fomentar la alfabetización en IA, dotando a la fuerza laboral de habilidades para un futuro dominado por la IA.
    • Aumento de la demanda de herramientas de transparencia de IA, lo que lleva a las empresas a priorizar la explicabilidad en los sistemas de IA para la comprensión y la confianza del consumidor.

    Preguntas a considerar

    • ¿Cómo podrían las organizaciones evitar el uso de datos de capacitación problemáticos?
    • ¿Cuáles son otras posibles consecuencias de los datos de entrenamiento no éticos?