Données d'entraînement problématiques : quand l'IA apprend des données biaisées

CRÉDIT D'IMAGE:
Crédit image
iStock

Données d'entraînement problématiques : quand l'IA apprend des données biaisées

Données d'entraînement problématiques : quand l'IA apprend des données biaisées

Texte du sous-titre
Les systèmes d'intelligence artificielle sont parfois introduits avec des données subjectives qui peuvent affecter la façon dont ils agissent et prennent des décisions.
    • Auteur :
    • Nom de l'auteur
      Prévision quantique
    • 14 octobre 2022

    Résumé des informations

    Nous sommes ce que nous apprenons et intériorisons ; ce dicton s'applique également à l'intelligence artificielle (IA). Les modèles d'apprentissage automatique (ML) alimentés avec des données incomplètes, biaisées et contraires à l'éthique finiront par prendre des décisions et des suggestions problématiques. Ces algorithmes puissants peuvent alors influencer la moralité et les perceptions des utilisateurs si les chercheurs ne font pas attention.

    Contexte de données de formation problématique

    Depuis les années 2010, les équipes de recherche ont été scrutées pour avoir utilisé des ensembles de données de formation au contenu inapproprié ou collectés de manière contraire à l’éthique. Par exemple, en 2016, la base de données MS-Celeb-1M de Microsoft comprenait 10 millions d'images de 100,000 XNUMX célébrités différentes. Cependant, après une inspection plus approfondie, les correspondants ont découvert que de nombreuses photos étaient celles de personnes ordinaires, tirées de divers sites Web sans le consentement ou la connaissance du propriétaire.

    Malgré cette prise de conscience, l’ensemble de données a continué à être utilisé par de grandes entreprises telles que Facebook et SenseTime, une société chinoise de reconnaissance faciale ayant des liens avec la police d’État. De même, un ensemble de données contenant des photos de personnes marchant sur le campus de l'Université Duke (DukeMTMC) n'a pas non plus recueilli de consentement. Finalement, les deux ensembles de données ont été supprimés. 

    Pour mettre en évidence les effets néfastes des données de formation problématiques, des chercheurs du Massachusetts Institute of Technology (MIT) ont créé une IA appelée Norman à laquelle ils ont appris à sous-titrer des images à partir d'un subreddit qui mettait en évidence la violence graphique. L'équipe a ensuite placé Norman contre un réseau de neurones formé à l'aide de données conventionnelles. Les chercheurs ont fourni aux deux systèmes des taches d'encre Rorschach et ont demandé aux IA de décrire ce qu'ils avaient vu. Les résultats ont été stupéfiants : là où le réseau neuronal standard a vu "une photo en noir et blanc d'un gant de baseball", Norman a observé "un homme assassiné par une mitrailleuse en plein jour". L'expérience a démontré que l'IA n'est pas automatiquement biaisée, mais ces méthodes de saisie de données et les motivations de leurs créateurs peuvent avoir un impact significatif sur le comportement d'une IA.

    Impact perturbateur

    En 2021, l'organisme de recherche Allen Institute for AI a créé Ask Delphi, un logiciel de ML qui génère de manière algorithmique des réponses à toute question éthique. Les chercheurs à l'origine du projet ont déclaré que l'IA devient progressivement plus puissante et familière, les scientifiques doivent donc enseigner l'éthique de ces systèmes de ML. Le modèle Unicorn ML est le fondement de Delphi. Il a été formulé pour effectuer un raisonnement de « bon sens », tel que la sélection de la fin la plus probable d'une chaîne de texte. 

    De plus, les chercheurs ont utilisé la « Commonsense Norm Bank ». Cette banque comprend 1.7 million d'exemples d'évaluations éthiques provenant d'endroits comme Reddit. En conséquence, le résultat de Delphi était mitigé. Delphi a répondu raisonnablement à certaines questions (par exemple, l'égalité entre les hommes et les femmes), alors que, sur certains sujets, Delphi était carrément offensant (par exemple, le génocide est acceptable tant qu'il rend les gens heureux).

    Cependant, l'IA Delphi apprend de ses expériences et semble mettre à jour ses réponses en fonction des retours. Certains experts sont troublés par l'utilisation publique et ouverte de la recherche, considérant que le modèle est en cours et est sujet à des réponses erratiques. Lorsque Ask Delphi a fait ses débuts, Mar Hicks, professeur d'histoire à l'Illinois Tech spécialisé dans le genre, le travail et l'histoire de l'informatique, a déclaré qu'il avait été négligent de la part des chercheurs d'inviter les gens à l'utiliser, considérant que Delphi fournissait immédiatement des réponses extrêmement contraires à l'éthique et que certains une absurdité totale. 

    En 2023, Reste du monde a mené une étude sur les biais dans les générateurs d’images d’IA. Grâce à Midjourney, les chercheurs ont découvert que les images générées confirmaient les stéréotypes existants. De plus, lorsque OpenAI a appliqué des filtres aux données d’entraînement pour son modèle de génération d’images DALL-E 2, il a involontairement intensifié les préjugés liés au sexe.

    Implications des données de formation problématiques

    Les implications plus larges des données de formation problématiques peuvent inclure : 

    • Préjugés renforcés dans les projets de recherche, les services et l'élaboration de programmes. Les données problématiques sur la formation sont particulièrement préoccupantes si elles sont utilisées dans les forces de l'ordre et les institutions bancaires (par exemple, ciblage défavorable des groupes minoritaires).
    • Investissement et développement accrus dans la croissance et l'assortiment de données de formation. 
    • De plus en plus de gouvernements renforcent les réglementations pour limiter la manière dont les entreprises développent, vendent et utilisent les données de formation pour diverses initiatives commerciales.
    • Davantage d'entreprises créent des services d'éthique pour s'assurer que les projets alimentés par des systèmes d'IA respectent les directives éthiques.
    • Un contrôle accru sur l’utilisation de l’IA dans les soins de santé conduisant à une gouvernance des données plus stricte, garantissant la confidentialité des patients et une application éthique de l’IA.
    • Collaboration accrue entre les secteurs public et privé pour favoriser la culture de l’IA, en dotant la main-d’œuvre des compétences nécessaires pour un avenir dominé par l’IA.
    • La demande croissante d’outils de transparence de l’IA conduit les entreprises à donner la priorité à l’explicabilité des systèmes d’IA pour la compréhension et la confiance des consommateurs.

    Questions à considérer

    • Comment les organisations pourraient-elles éviter d'utiliser des données de formation problématiques ?
    • Quelles sont les autres conséquences potentielles de données de formation contraires à l'éthique ?