Dati di addestramento problematici: quando all'IA vengono insegnati dati distorti

CREDITO IMMAGINE:
Immagine di credito
iStock

Dati di addestramento problematici: quando all'IA vengono insegnati dati distorti

Dati di addestramento problematici: quando all'IA vengono insegnati dati distorti

Testo del sottotitolo
I sistemi di intelligenza artificiale vengono talvolta introdotti con dati soggettivi che possono influenzare il modo in cui agisce e prende decisioni.
    • Autore:
    • Nome dell'autore
      Preveggenza quantistica
    • Ottobre 14, 2022

    Riepilogo approfondimenti

    Siamo ciò che impariamo e interiorizziamo; questo detto si applica anche all'intelligenza artificiale (AI). I modelli di machine learning (ML) alimentati con dati incompleti, distorti e non etici alla fine prenderanno decisioni e suggerimenti problematici. Questi potenti algoritmi possono quindi influenzare la moralità e le percezioni degli utenti se i ricercatori non stanno attenti.

    Contesto problematico dei dati di addestramento

    A partire dagli anni 2010, i gruppi di ricerca sono stati esaminati attentamente per aver utilizzato set di dati di addestramento con contenuti inadeguati o raccolti in modo non etico. Ad esempio, nel 2016, il database MS-Celeb-1M di Microsoft includeva 10 milioni di immagini di 100,000 celebrità diverse. Tuttavia, dopo un'ulteriore ispezione, i corrispondenti hanno scoperto che molte foto erano di persone comuni estratte da vari siti Web senza il consenso o la conoscenza del proprietario.

    Nonostante questa consapevolezza, il set di dati ha continuato a essere utilizzato da grandi aziende come Facebook e SenseTime, una società cinese di riconoscimento facciale con legami con la polizia di stato. Allo stesso modo, neanche un set di dati contenente immagini di persone che camminano nel campus della Duke University (DukeMTMC) ha raccolto il consenso. Alla fine, entrambi i set di dati sono stati rimossi. 

    Per evidenziare gli effetti dannosi dei dati di addestramento problematici, i ricercatori del Massachusetts Institute of Technology (MIT) hanno creato un'intelligenza artificiale chiamata Norman a cui hanno insegnato a eseguire didascalie di immagini da un subreddit che evidenziava la violenza grafica. Il team ha quindi posizionato Norman contro una rete neurale addestrata utilizzando dati convenzionali. I ricercatori hanno fornito a entrambi i sistemi le macchie d'inchiostro Rorschach e hanno chiesto alle IA di descrivere ciò che hanno visto. I risultati sono stati sbalorditivi: dove la rete neurale standard ha visto "una foto in bianco e nero di un guanto da baseball", Norman ha osservato "un uomo ucciso da una mitragliatrice in pieno giorno". L'esperimento ha dimostrato che l'IA non è automaticamente distorta, ma quei metodi di input dei dati e le motivazioni dei loro creatori possono avere un impatto significativo sul comportamento di un'IA.

    Impatto dirompente

    Nel 2021, l'organizzazione di ricerca Allen Institute for AI ha creato Ask Delphi, un software ML che genera algoritmicamente risposte a qualsiasi domanda etica. I ricercatori dietro il progetto hanno affermato che l’intelligenza artificiale sta gradualmente diventando più potente e familiare, quindi gli scienziati devono insegnare l’etica di questi sistemi ML. Il modello Unicorn ML è il fondamento di Delphi. È stato formulato per eseguire ragionamenti di "buon senso", come selezionare la conclusione più probabile di una stringa di testo. 

    Inoltre, i ricercatori hanno utilizzato la "Commonsense Norm Bank". Questa banca è composta da 1.7 milioni di esempi di valutazioni etiche delle persone provenienti da luoghi come Reddit. Di conseguenza, la produzione di Delphi è stata un miscuglio. Delphi ha risposto ad alcune domande in modo ragionevole (ad esempio, uguaglianza tra uomini e donne), mentre, su alcuni argomenti, Delphi è stato decisamente offensivo (ad esempio, il genocidio è accettabile purché renda felici le persone).

    Tuttavia, l'intelligenza artificiale di Delphi sta imparando dalle sue esperienze e sembra aggiornare le sue risposte in base al feedback. Alcuni esperti sono preoccupati dall'uso pubblico e aperto della ricerca, considerando che il modello è in fase di sviluppo ed è soggetto a risposte irregolari. Quando ha debuttato Ask Delphi, Mar Hicks, professore di Storia presso l'Illinois Tech specializzato in genere, lavoro e storia dell'informatica, ha affermato che è stato negligente da parte dei ricercatori invitare le persone a usarlo, considerando che Delphi ha immediatamente fornito risposte estremamente immorali e alcune totale assurdità. 

    Nel 2023, Resto del Mondo ha condotto uno studio sui bias nei generatori di immagini AI. Utilizzando Midjourney, i ricercatori hanno scoperto che le immagini generate confermano gli stereotipi esistenti. Inoltre, quando OpenAI ha applicato filtri ai dati di addestramento per il suo modello di generazione di immagini DALL-E 2, ha involontariamente intensificato i pregiudizi legati al genere.

    Implicazioni dei dati di addestramento problematici

    Implicazioni più ampie dei dati di addestramento problematici possono includere: 

    • Distorsioni rafforzate nei progetti di ricerca, nei servizi e nello sviluppo di programmi. I dati sulla formazione problematica sono particolarmente preoccupanti se utilizzati nelle forze dell'ordine e negli istituti bancari (ad esempio, prendendo di mira gruppi minoritari).
    • Maggiori investimenti e sviluppo nella crescita e nell'assortimento dei dati di formazione. 
    • Più governi stanno aumentando le normative per limitare il modo in cui le aziende sviluppano, vendono e utilizzano i dati di formazione per varie iniziative commerciali.
    • Sempre più aziende che creano dipartimenti di etica per garantire che i progetti alimentati da sistemi di intelligenza artificiale seguano linee guida etiche.
    • Un controllo rafforzato sull’uso dell’intelligenza artificiale nel settore sanitario porta a una governance dei dati più rigorosa, garantendo la privacy dei pazienti e un’applicazione etica dell’intelligenza artificiale.
    • Maggiore collaborazione tra il settore pubblico e quello privato per promuovere l’alfabetizzazione in materia di intelligenza artificiale, dotando la forza lavoro delle competenze per un futuro dominato dall’intelligenza artificiale.
    • L’aumento della domanda di strumenti per la trasparenza dell’intelligenza artificiale, porta le aziende a dare priorità alla spiegabilità nei sistemi di intelligenza artificiale per la comprensione e la fiducia dei consumatori.

    Domande da considerare

    • In che modo le organizzazioni potrebbero evitare di utilizzare dati di formazione problematici?
    • Quali sono le altre potenziali conseguenze di dati di formazione non etici?