Problematische Trainingsdaten: Wenn KI voreingenommene Daten beigebracht werden

IMAGE CREDIT:
Bildnachweis
iStock

Problematische Trainingsdaten: Wenn KI voreingenommene Daten beigebracht werden

Problematische Trainingsdaten: Wenn KI voreingenommene Daten beigebracht werden

Untertiteltext
Künstliche Intelligenzsysteme werden manchmal mit subjektiven Daten eingeführt, die sich darauf auswirken können, wie sie handeln und Entscheidungen treffen.
    • Autor:
    • Autorenname
      Quantumrun-Vorausschau
    • 14. Oktober 2022

    Zusammenfassung der Einblicke

    Wir sind, was wir lernen und verinnerlichen; Dieses Diktum gilt auch für künstliche Intelligenz (KI). Machine Learning (ML)-Modelle, die mit unvollständigen, voreingenommenen und unethischen Daten gefüttert werden, werden letztendlich problematische Entscheidungen und Vorschläge treffen. Diese leistungsstarken Algorithmen können dann die Moral und Wahrnehmung der Benutzer beeinflussen, wenn die Forscher nicht aufpassen.

    Problematischer Trainingsdatenkontext

    Seit den 2010er Jahren werden Forschungsteams auf die Verwendung von Trainingsdatensätzen mit ungeeignetem Inhalt oder auf unethische Weise überprüft. Beispielsweise enthielt die MS-Celeb-2016M-Datenbank von Microsoft im Jahr 1 10 Millionen Bilder von 100,000 verschiedenen Prominenten. Bei näherer Betrachtung stellten die Korrespondenten jedoch fest, dass es sich bei vielen Fotos um normale Menschen handelte, die ohne Zustimmung oder Wissen des Eigentümers von verschiedenen Websites heruntergeladen wurden.

    Trotz dieser Erkenntnis wurde der Datensatz weiterhin von großen Unternehmen wie Facebook und SenseTime, einem chinesischen Gesichtserkennungsunternehmen mit Verbindungen zur Staatspolizei, genutzt. Auch ein Datensatz mit Bildern von Menschen, die auf dem Campus der Duke University spazieren gehen (DukeMTMC), sammelte keine Einwilligung. Schließlich wurden beide Datensätze entfernt. 

    Um die schädlichen Auswirkungen problematischer Trainingsdaten hervorzuheben, haben Forscher des Massachusetts Institute of Technology (MIT) eine KI namens Norman entwickelt, der sie beibrachten, Bildunterschriften aus einem Subreddit durchzuführen, der grafische Gewalt hervorhob. Das Team stellte Norman dann einem neuronalen Netzwerk gegenüber, das mit konventionellen Daten trainiert wurde. Die Forscher versorgten beide Systeme mit Rorschach-Tintenklecksen und baten die KIs, zu beschreiben, was sie sahen. Die Ergebnisse waren verblüffend: Während das standardmäßige neuronale Netzwerk „ein Schwarz-Weiß-Foto eines Baseballhandschuhs“ sah, beobachtete Norman „einen Mann, der am hellichten Tag mit einem Maschinengewehr ermordet wurde“. Das Experiment zeigte, dass KI nicht automatisch voreingenommen ist, aber diese Dateneingabemethoden und die Motive ihrer Ersteller können das Verhalten einer KI erheblich beeinflussen.

    Störende Wirkung

    Im Jahr 2021 entwickelte die Forschungsorganisation Allen Institute for AI Ask Delphi, eine ML-Software, die algorithmisch Antworten auf jede ethische Frage generiert. Die Forscher hinter dem Projekt erklärten, dass KI nach und nach immer leistungsfähiger und vertrauter werde, weshalb Wissenschaftler diesen ML-Systemen Ethik beibringen müssen. Das Unicorn ML-Modell ist die Grundlage von Delphi. Es wurde formuliert, um Überlegungen des „gesunden Menschenverstands“ anzustellen, beispielsweise die Auswahl des wahrscheinlichsten Endes einer Textzeichenfolge. 

    Darüber hinaus nutzten die Forscher die „Commonsense Norm Bank“. Diese Bank besteht aus 1.7 Millionen Beispielen ethischer Bewertungen von Menschen von Orten wie Reddit. Infolgedessen war die Ausgabe von Delphi gemischt. Delphi beantwortete einige Fragen angemessen (z. B. Gleichstellung von Männern und Frauen), während Delphi bei einigen Themen geradezu beleidigend war (z. B. ist Völkermord akzeptabel, solange er die Menschen glücklich macht).

    Allerdings lernt die Delphi-KI aus ihren Erfahrungen und scheint ihre Antworten basierend auf Feedback zu aktualisieren. Einige Experten sind besorgt über die öffentliche und offene Nutzung der Forschung, da das Modell noch in der Entwicklung ist und anfällig für unberechenbare Antworten ist. Als Ask Delphi auf den Markt kam, sagte Mar Hicks, Professorin für Geschichte an der Illinois Tech, die sich auf Geschlechterfragen, Arbeit und die Geschichte des Computers spezialisiert hat, dass es von Forschern nachlässig gewesen sei, Leute zur Nutzung einzuladen, da Delphi sofort äußerst unethische Antworten lieferte und einige davon völliger Unsinn. 

    In 2023, Rest der Welt führte eine Studie zur Voreingenommenheit bei KI-Bildgeneratoren durch. Mithilfe von Midjourney fanden Forscher heraus, dass die erzeugten Bilder bestehende Stereotypen bestätigen. Als OpenAI außerdem Filter auf die Trainingsdaten für sein Bilderzeugungsmodell DALL-E 2 anwendete, verstärkte es unbeabsichtigt die geschlechtsbezogenen Vorurteile.

    Auswirkungen problematischer Trainingsdaten

    Weitere Auswirkungen problematischer Trainingsdaten können sein: 

    • Verstärkte Vorurteile in Forschungsprojekten, Dienstleistungen und Programmentwicklung. Problematische Trainingsdaten sind besonders besorgniserregend, wenn sie von Strafverfolgungsbehörden und Bankinstituten verwendet werden (z. B. nachteilige Ausrichtung auf Minderheitengruppen).
    • Erhöhte Investitionen und Entwicklung in das Wachstum und die Auswahl von Trainingsdaten. 
    • Immer mehr Regierungen verschärfen die Vorschriften, um einzuschränken, wie Unternehmen Trainingsdaten für verschiedene kommerzielle Initiativen entwickeln, verkaufen und verwenden.
    • Immer mehr Unternehmen richten Ethikabteilungen ein, um sicherzustellen, dass Projekte, die von KI-Systemen unterstützt werden, ethischen Richtlinien entsprechen.
    • Eine verstärkte Prüfung des Einsatzes von KI im Gesundheitswesen führt zu einer strengeren Datenverwaltung und gewährleistet die Privatsphäre der Patienten sowie eine ethische KI-Anwendung.
    • Verstärkte Zusammenarbeit zwischen öffentlichem und privatem Sektor zur Förderung der KI-Kenntnisse und zur Ausstattung der Belegschaft mit Fähigkeiten für eine KI-dominierte Zukunft.
    • Steigende Nachfrage nach KI-Transparenztools führt dazu, dass Unternehmen der Erklärbarkeit in KI-Systemen Vorrang einräumen, um Verbraucherverständnis und -vertrauen zu gewinnen.

    Fragen zu berücksichtigen

    • Wie können Unternehmen die Verwendung problematischer Trainingsdaten vermeiden?
    • Was sind weitere mögliche Folgen unethischer Trainingsdaten?