Problémás képzési adatok: Amikor az AI-t torz adatokra tanítják

KÉP HITEL:
Kép hitel
iStock

Problémás képzési adatok: Amikor az AI-t torz adatokra tanítják

Problémás képzési adatok: Amikor az AI-t torz adatokra tanítják

Alcím szövege
A mesterséges intelligencia-rendszereket néha olyan szubjektív adatokkal vezetik be, amelyek befolyásolhatják annak cselekvését és döntéshozatalát.
    • Szerző:
    • Szerző neve
      Quantumrun Foresight
    • Október 14, 2022

    Insight összefoglaló

    Azok vagyunk, amit megtanulunk és magunkévá teszünk; ez a diktátum a mesterséges intelligenciára (AI) is vonatkozik. A hiányos, elfogult és etikátlan adatokkal táplált gépi tanulási (ML) modellek végső soron problémás döntéseket és javaslatokat hoznak. Ezek az erőteljes algoritmusok aztán befolyásolhatják a felhasználók erkölcsét és felfogását, ha a kutatók nem vigyáznak.

    Problémás képzési adatok kontextusa

    A 2010-es évek óta vizsgálják a kutatócsoportokat, hogy nem megfelelő tartalmú vagy etikátlanul gyűjtött képzési adatkészleteket használnak-e. Például 2016-ban a Microsoft MS-Celeb-1M adatbázisa 10 millió képet tartalmazott 100,000 XNUMX különböző hírességről. További vizsgálatok során azonban a tudósítók felfedezték, hogy sok fotó hétköznapi emberekről készült, amelyeket a tulajdonos beleegyezése vagy tudta nélkül húztak le különböző webhelyekről.

    E felismerés ellenére az adatkészletet továbbra is olyan nagy cégek használták, mint a Facebook és a SenseTime, egy kínai arcfelismerő cég, amely kapcsolatban áll az állami rendőrséggel. Hasonlóképpen, a Duke Egyetem campusán sétáló emberek képeit tartalmazó adatkészlet (DukeMTMC) sem gyűjtött bele beleegyezést. Végül mindkét adatkészletet eltávolították. 

    A problémás képzési adatok káros hatásainak kiemelésére a Massachusetts Institute of Technology (MIT) kutatói létrehoztak egy Norman nevű mesterséges intelligenciát, amelyet megtanítottak a képaláírások végrehajtására egy olyan subredditből, amely az erőszakot hangsúlyozta. A csapat ezután Normant egy hagyományos adatok felhasználásával kiképzett neurális hálózattal szembeállította. A kutatók mindkét rendszert ellátták Rorschach tintafoltokkal, és arra kérték az MI-ket, hogy írják le, amit láttak. Az eredmények lenyűgözőek voltak: ahol a szabványos neurális hálózat "fekete-fehér fotót látott egy baseball-kesztyűről", Norman "egy embert, akit gépfegyverrel meggyilkoltak fényes nappal". A kísérlet kimutatta, hogy a mesterséges intelligencia nem torzít automatikusan, de ezek az adatbeviteli módszerek és alkotóik indítékai jelentősen befolyásolhatják az AI viselkedését.

    Bomlasztó hatás

    2021-ben az Allen Institute for AI kutatószervezet megalkotta az Ask Delphi nevű ML szoftvert, amely algoritmikusan generál válaszokat bármilyen etikai kérdésre. A projekt mögött álló kutatók kijelentették, hogy a mesterséges intelligencia fokozatosan erősebbé és ismerősebbé válik, ezért a tudósoknak meg kell tanítaniuk ezeket az ML-rendszerek etikáját. Az Unicorn ML modell a Delphi alapja. Úgy fogalmazták meg, hogy „józan ész” érvelést hajtson végre, például kiválasztja a legvalószínűbb befejezést egy szöveges karakterlánchoz. 

    Ezenkívül a kutatók a „Commonsense Norm Bank”-ot használták. Ez a bank 1.7 millió példát tartalmaz az emberek etikai értékelésére olyan helyekről, mint a Reddit. Ennek eredményeként a Delphi eredménye vegyes volt. A Delphi néhány kérdésre ésszerűen válaszolt (pl. a férfiak és nők közötti egyenlőség), míg bizonyos témákban a Delphi kifejezetten sértő volt (pl. a népirtás addig elfogadható, amíg boldoggá teszi az embereket).

    A Delphi AI azonban tanul a tapasztalataiból, és úgy tűnik, hogy a visszajelzések alapján frissíti a válaszait. Egyes szakértőket nyugtalanítja a kutatás nyilvános és nyílt használata, mivel a modell folyamatban van, és hajlamos a hibás válaszokra. Amikor az Ask Delphi debütált, Mar Hicks, az Illinois Tech történelemprofesszora, aki a nemekre, a munkára és a számítástechnika történetére szakosodott, azt mondta, hogy a kutatók hanyagsága hívta meg az embereket a használatára, mivel a Delphi azonnal rendkívül etikátlan válaszokat adott, és néhány teljes hülyeség. 

    A 2023, A világ többi része tanulmányt végzett az AI képgenerátorok torzításáról. A Midjourney segítségével a kutatók felfedezték, hogy a létrehozott képek megerősítik a meglévő sztereotípiákat. Ezen túlmenően, amikor az OpenAI szűrőket alkalmazott a DALL-E 2 képgenerálási modell betanítási adataira, ez akaratlanul is felerősítette a nemhez kapcsolódó torzításokat.

    A problémás képzési adatok következményei

    A problémás képzési adatok szélesebb körű következményei lehetnek: 

    • Megerősített előítéletek a kutatási projektekben, szolgáltatásokban és programfejlesztésben. A problémás képzési adatok különösen aggályosak, ha a bűnüldöző és banki intézményekben használják (pl. kisebbségi csoportokat hátrányosan megcélozva).
    • Megnövekedett befektetés és fejlesztés a képzési adatok bővítésében és választékában. 
    • Egyre több kormány szigorítja a szabályozást annak érdekében, hogy korlátozza a vállalatok képzési adatainak fejlesztését, értékesítését és felhasználását különféle kereskedelmi kezdeményezésekhez.
    • Egyre több vállalkozás hoz létre etikai osztályokat annak biztosítására, hogy a mesterséges intelligencia rendszerek által működtetett projektek kövesse az etikai irányelveket.
    • A mesterséges intelligencia egészségügyben való használatának fokozott ellenőrzése, ami szigorúbb adatkezeléshez, a betegek adatainak védelméhez és az etikus mesterséges intelligencia alkalmazásához vezet.
    • Fokozott együttműködés a köz- és a magánszektorban a mesterséges intelligencia műveltségének előmozdítása érdekében, felvértezve a munkaerőt a mesterséges intelligencia által uralt jövő készségeivel.
    • A mesterséges intelligencia átláthatóságát elősegítő eszközök iránti kereslet növekedése, ami arra készteti a vállalatokat, hogy a magyarázhatóságot részesítsék előnyben a fogyasztók megértése és bizalma érdekében.

    Megfontolandó kérdések

    • Hogyan kerülhetik el a szervezetek a problémás képzési adatok felhasználását?
    • Milyen egyéb lehetséges következményei lehetnek az etikátlan képzési adatoknak?