Dados de treinamento problemáticos: quando a IA é ensinada com dados tendenciosos

CRÉDITO DE IMAGEM:
Crédito da imagem
iStock

Dados de treinamento problemáticos: quando a IA é ensinada com dados tendenciosos

Dados de treinamento problemáticos: quando a IA é ensinada com dados tendenciosos

Texto do subtítulo
Os sistemas de inteligência artificial às vezes são introduzidos com dados subjetivos que podem afetar a maneira como ele age e toma decisões.
    • Autor:
    • Nome do autor
      Previsão Quantumrun
    • 14 de outubro de 2022

    Resumo do insight

    Somos o que aprendemos e internalizamos; esta máxima também se aplica à inteligência artificial (IA). Modelos de aprendizado de máquina (ML) alimentados com dados incompletos, tendenciosos e antiéticos acabarão tomando decisões e sugestões problemáticas. Esses algoritmos poderosos podem influenciar a moralidade e as percepções dos usuários se os pesquisadores não forem cuidadosos.

    Contexto de dados de treinamento problemático

    Desde a década de 2010, as equipes de pesquisa têm sido examinadas por usarem conjuntos de dados de treinamento com conteúdo inadequado ou coletados de forma antiética. Por exemplo, em 2016, o banco de dados MS-Celeb-1M da Microsoft incluía 10 milhões de imagens de 100,000 mil celebridades diferentes. No entanto, após uma inspeção mais aprofundada, os correspondentes descobriram que muitas fotos eram de pessoas comuns retiradas de vários sites sem o consentimento ou conhecimento do proprietário.

    Apesar desta constatação, o conjunto de dados continuou a ser utilizado por grandes empresas como o Facebook e a SenseTime, uma empresa chinesa de reconhecimento facial ligada à polícia estatal. Da mesma forma, um conjunto de dados contendo fotos de pessoas caminhando no campus da Universidade Duke (DukeMTMC) também não obteve consentimento. Eventualmente, ambos os conjuntos de dados foram removidos. 

    Para destacar os efeitos prejudiciais de dados de treinamento problemáticos, pesquisadores do Instituto de Tecnologia de Massachusetts (MIT) criaram uma IA chamada Norman que ensinaram a realizar legendas de imagens de um subreddit que destacava a violência gráfica. A equipe então colocou Norman contra uma rede neural treinada usando dados convencionais. Os pesquisadores forneceram a ambos os sistemas manchas de tinta Rorschach e pediram às IAs que descrevessem o que viram. Os resultados foram impressionantes: onde a rede neural padrão viu "uma foto em preto e branco de uma luva de beisebol", Norman observou "um homem assassinado por metralhadora em plena luz do dia". O experimento demonstrou que a IA não é automaticamente tendenciosa, mas esses métodos de entrada de dados e os motivos de seus criadores podem afetar significativamente o comportamento de uma IA.

    Impacto disruptivo

    Em 2021, a organização de pesquisa Allen Institute for AI criou o Ask Delphi, um software de ML que gera respostas algorítmicas para qualquer questão ética. Os pesquisadores por trás do projeto afirmaram que a IA está gradualmente se tornando mais poderosa e familiar, então os cientistas precisam ensinar ética a esses sistemas de ML. O modelo Unicorn ML é a base do Delphi. Foi formulado para realizar raciocínios de "senso comum", como selecionar o final mais provável para uma sequência de texto. 

    Além disso, os pesquisadores usaram o 'Commonsense Norm Bank'. Este banco consiste em 1.7 milhão de exemplos de avaliações éticas de pessoas em lugares como o Reddit. Como resultado, a produção do Delphi foi uma mistura. Delphi respondeu algumas questões razoavelmente (por exemplo, igualdade entre homens e mulheres), enquanto, em alguns tópicos, Delphi foi francamente ofensivo (por exemplo, o genocídio é aceitável desde que faça as pessoas felizes).

    No entanto, a IA Delphi está aprendendo com suas experiências e parece estar atualizando suas respostas com base no feedback. Alguns especialistas estão preocupados com o uso público e aberto da pesquisa, considerando que o modelo está em andamento e é propenso a respostas erráticas. Quando o Ask Delphi estreou, Mar Hicks, professor de história da Illinois Tech especializado em gênero, trabalho e história da computação, disse que foi negligente da parte dos pesquisadores convidar pessoas para usá-lo, considerando que o Delphi imediatamente forneceu respostas extremamente antiéticas e algumas absurdo completo. 

    Em 2023, Resto do Mundo conduziu um estudo sobre preconceito em geradores de imagens de IA. Usando Midjourney, os pesquisadores descobriram que as imagens geradas confirmam os estereótipos existentes. Além disso, quando a OpenAI aplicou filtros aos dados de treinamento para seu modelo de geração de imagens DALL-E 2, intensificou involuntariamente os preconceitos relacionados ao gênero.

    Implicações de dados de treinamento problemáticos

    Implicações mais amplas de dados de treinamento problemáticos podem incluir: 

    • Vieses reforçados em projetos de pesquisa, serviços e desenvolvimento de programas. Dados de treinamento problemáticos são particularmente preocupantes se usados ​​em instituições policiais e bancárias (por exemplo, visando grupos minoritários).
    • Maior investimento e desenvolvimento no crescimento e variedade de dados de treinamento. 
    • Mais governos aumentando as regulamentações para limitar como as corporações desenvolvem, vendem e usam dados de treinamento para várias iniciativas comerciais.
    • Mais empresas estabelecendo departamentos de ética para garantir que os projetos desenvolvidos por sistemas de IA sigam as diretrizes éticas.
    • Maior escrutínio sobre a utilização da IA ​​nos cuidados de saúde, levando a uma governação de dados mais rigorosa, garantindo a privacidade dos pacientes e a aplicação ética da IA.
    • Aumento da colaboração entre os setores público e privado para promover a literacia em IA, dotando a força de trabalho com competências para um futuro dominado pela IA.
    • Aumento da demanda por ferramentas de transparência de IA, levando as empresas a priorizar a explicabilidade em sistemas de IA para compreensão e confiança do consumidor.

    Questões a considerar

    • Como as organizações podem evitar o uso de dados de treinamento problemáticos?
    • Quais são outras consequências potenciais de dados de treinamento antiéticos?