Problémás képzési adatok: Amikor az AI-t torz adatokra tanítják
Problémás képzési adatok: Amikor az AI-t torz adatokra tanítják
Problémás képzési adatok: Amikor az AI-t torz adatokra tanítják
- Szerző:
- Október 14, 2022
Insight összefoglaló
Azok vagyunk, amit megtanulunk és magunkévá teszünk; ez a diktátum a mesterséges intelligenciára (AI) is vonatkozik. A hiányos, elfogult és etikátlan adatokkal táplált gépi tanulási (ML) modellek végső soron problémás döntéseket és javaslatokat hoznak. Ezek az erőteljes algoritmusok aztán befolyásolhatják a felhasználók erkölcsét és felfogását, ha a kutatók nem vigyáznak.
Problémás képzési adatok kontextusa
A 2010-es évek óta vizsgálják a kutatócsoportokat, hogy nem megfelelő tartalmú vagy etikátlanul gyűjtött képzési adatkészleteket használnak-e. Például 2016-ban a Microsoft MS-Celeb-1M adatbázisa 10 millió képet tartalmazott 100,000 XNUMX különböző hírességről. További vizsgálatok során azonban a tudósítók felfedezték, hogy sok fotó hétköznapi emberekről készült, amelyeket a tulajdonos beleegyezése vagy tudta nélkül húztak le különböző webhelyekről.
E felismerés ellenére az adatkészletet továbbra is olyan nagy cégek használták, mint a Facebook és a SenseTime, egy kínai arcfelismerő cég, amely kapcsolatban áll az állami rendőrséggel. Hasonlóképpen, a Duke Egyetem campusán sétáló emberek képeit tartalmazó adatkészlet (DukeMTMC) sem gyűjtött bele beleegyezést. Végül mindkét adatkészletet eltávolították.
A problémás képzési adatok káros hatásainak kiemelésére a Massachusetts Institute of Technology (MIT) kutatói létrehoztak egy Norman nevű mesterséges intelligenciát, amelyet megtanítottak a képaláírások végrehajtására egy olyan subredditből, amely az erőszakot hangsúlyozta. A csapat ezután Normant egy hagyományos adatok felhasználásával kiképzett neurális hálózattal szembeállította. A kutatók mindkét rendszert ellátták Rorschach tintafoltokkal, és arra kérték az MI-ket, hogy írják le, amit láttak. Az eredmények lenyűgözőek voltak: ahol a szabványos neurális hálózat "fekete-fehér fotót látott egy baseball-kesztyűről", Norman "egy embert, akit gépfegyverrel meggyilkoltak fényes nappal". A kísérlet kimutatta, hogy a mesterséges intelligencia nem torzít automatikusan, de ezek az adatbeviteli módszerek és alkotóik indítékai jelentősen befolyásolhatják az AI viselkedését.
Bomlasztó hatás
2021-ben az Allen Institute for AI kutatószervezet megalkotta az Ask Delphi nevű ML szoftvert, amely algoritmikusan generál válaszokat bármilyen etikai kérdésre. A projekt mögött álló kutatók kijelentették, hogy a mesterséges intelligencia fokozatosan erősebbé és ismerősebbé válik, ezért a tudósoknak meg kell tanítaniuk ezeket az ML-rendszerek etikáját. Az Unicorn ML modell a Delphi alapja. Úgy fogalmazták meg, hogy „józan ész” érvelést hajtson végre, például kiválasztja a legvalószínűbb befejezést egy szöveges karakterlánchoz.
Ezenkívül a kutatók a „Commonsense Norm Bank”-ot használták. Ez a bank 1.7 millió példát tartalmaz az emberek etikai értékelésére olyan helyekről, mint a Reddit. Ennek eredményeként a Delphi eredménye vegyes volt. A Delphi néhány kérdésre ésszerűen válaszolt (pl. a férfiak és nők közötti egyenlőség), míg bizonyos témákban a Delphi kifejezetten sértő volt (pl. a népirtás addig elfogadható, amíg boldoggá teszi az embereket).
A Delphi AI azonban tanul a tapasztalataiból, és úgy tűnik, hogy a visszajelzések alapján frissíti a válaszait. Egyes szakértőket nyugtalanítja a kutatás nyilvános és nyílt használata, mivel a modell folyamatban van, és hajlamos a hibás válaszokra. Amikor az Ask Delphi debütált, Mar Hicks, az Illinois Tech történelemprofesszora, aki a nemekre, a munkára és a számítástechnika történetére szakosodott, azt mondta, hogy a kutatók hanyagsága hívta meg az embereket a használatára, mivel a Delphi azonnal rendkívül etikátlan válaszokat adott, és néhány teljes hülyeség.
A 2023, A világ többi része tanulmányt végzett az AI képgenerátorok torzításáról. A Midjourney segítségével a kutatók felfedezték, hogy a létrehozott képek megerősítik a meglévő sztereotípiákat. Ezen túlmenően, amikor az OpenAI szűrőket alkalmazott a DALL-E 2 képgenerálási modell betanítási adataira, ez akaratlanul is felerősítette a nemhez kapcsolódó torzításokat.
A problémás képzési adatok következményei
A problémás képzési adatok szélesebb körű következményei lehetnek:
- Megerősített előítéletek a kutatási projektekben, szolgáltatásokban és programfejlesztésben. A problémás képzési adatok különösen aggályosak, ha a bűnüldöző és banki intézményekben használják (pl. kisebbségi csoportokat hátrányosan megcélozva).
- Megnövekedett befektetés és fejlesztés a képzési adatok bővítésében és választékában.
- Egyre több kormány szigorítja a szabályozást annak érdekében, hogy korlátozza a vállalatok képzési adatainak fejlesztését, értékesítését és felhasználását különféle kereskedelmi kezdeményezésekhez.
- Egyre több vállalkozás hoz létre etikai osztályokat annak biztosítására, hogy a mesterséges intelligencia rendszerek által működtetett projektek kövesse az etikai irányelveket.
- A mesterséges intelligencia egészségügyben való használatának fokozott ellenőrzése, ami szigorúbb adatkezeléshez, a betegek adatainak védelméhez és az etikus mesterséges intelligencia alkalmazásához vezet.
- Fokozott együttműködés a köz- és a magánszektorban a mesterséges intelligencia műveltségének előmozdítása érdekében, felvértezve a munkaerőt a mesterséges intelligencia által uralt jövő készségeivel.
- A mesterséges intelligencia átláthatóságát elősegítő eszközök iránti kereslet növekedése, ami arra készteti a vállalatokat, hogy a magyarázhatóságot részesítsék előnyben a fogyasztók megértése és bizalma érdekében.
Megfontolandó kérdések
- Hogyan kerülhetik el a szervezetek a problémás képzési adatok felhasználását?
- Milyen egyéb lehetséges következményei lehetnek az etikátlan képzési adatoknak?
Insight hivatkozások
A következő népszerű és intézményi hivatkozásokra hivatkoztunk ehhez a betekintéshez: