Quantumrun

KÉP HITEL:

iStock

Problémás képzési adatok: Amikor az AI-t torz adatokra tanítják

A mesterséges intelligencia-rendszereket néha olyan szubjektív adatokkal vezetik be, amelyek befolyásolhatják annak cselekvését és döntéshozatalát.

Szerző:
Szerző neve
Quantumrun Foresight
Október 14, 2022

Insight összefoglaló

Azok vagyunk, amit megtanulunk és magunkévá teszünk; ez a diktátum a mesterséges intelligenciára (AI) is vonatkozik. A hiányos, elfogult és etikátlan adatokkal táplált gépi tanulási (ML) modellek végső soron problémás döntéseket és javaslatokat hoznak. Ezek az erőteljes algoritmusok aztán befolyásolhatják a felhasználók erkölcsét és felfogását, ha a kutatók nem vigyáznak.

Problémás képzési adatok kontextusa

A 2010-es évek óta vizsgálják a kutatócsoportokat, hogy nem megfelelő tartalmú vagy etikátlanul gyűjtött képzési adatkészleteket használnak-e. Például 2016-ban a Microsoft MS-Celeb-1M adatbázisa 10 millió képet tartalmazott 100,000 XNUMX különböző hírességről. További vizsgálatok során azonban a tudósítók felfedezték, hogy sok fotó hétköznapi emberekről készült, amelyeket a tulajdonos beleegyezése vagy tudta nélkül húztak le különböző webhelyekről.

E felismerés ellenére az adatkészletet továbbra is olyan nagy cégek használták, mint a Facebook és a SenseTime, egy kínai arcfelismerő cég, amely kapcsolatban áll az állami rendőrséggel. Hasonlóképpen, a Duke Egyetem campusán sétáló emberek képeit tartalmazó adatkészlet (DukeMTMC) sem gyűjtött bele beleegyezést. Végül mindkét adatkészletet eltávolították.

A problémás képzési adatok káros hatásainak kiemelésére a Massachusetts Institute of Technology (MIT) kutatói létrehoztak egy Norman nevű mesterséges intelligenciát, amelyet megtanítottak a képaláírások végrehajtására egy olyan subredditből, amely az erőszakot hangsúlyozta. A csapat ezután Normant egy hagyományos adatok felhasználásával kiképzett neurális hálózattal szembeállította. A kutatók mindkét rendszert ellátták Rorschach tintafoltokkal, és arra kérték az MI-ket, hogy írják le, amit láttak. Az eredmények lenyűgözőek voltak: ahol a szabványos neurális hálózat "fekete-fehér fotót látott egy baseball-kesztyűről", Norman "egy embert, akit gépfegyverrel meggyilkoltak fényes nappal". A kísérlet kimutatta, hogy a mesterséges intelligencia nem torzít automatikusan, de ezek az adatbeviteli módszerek és alkotóik indítékai jelentősen befolyásolhatják az AI viselkedését.

Bomlasztó hatás

2021-ben az Allen Institute for AI kutatószervezet megalkotta az Ask Delphi nevű ML szoftvert, amely algoritmikusan generál válaszokat bármilyen etikai kérdésre. A projekt mögött álló kutatók kijelentették, hogy a mesterséges intelligencia fokozatosan erősebbé és ismerősebbé válik, ezért a tudósoknak meg kell tanítaniuk ezeket az ML-rendszerek etikáját. Az Unicorn ML modell a Delphi alapja. Úgy fogalmazták meg, hogy „józan ész” érvelést hajtson végre, például kiválasztja a legvalószínűbb befejezést egy szöveges karakterlánchoz.

Ezenkívül a kutatók a „Commonsense Norm Bank”-ot használták. Ez a bank 1.7 millió példát tartalmaz az emberek etikai értékelésére olyan helyekről, mint a Reddit. Ennek eredményeként a Delphi eredménye vegyes volt. A Delphi néhány kérdésre ésszerűen válaszolt (pl. a férfiak és nők közötti egyenlőség), míg bizonyos témákban a Delphi kifejezetten sértő volt (pl. a népirtás addig elfogadható, amíg boldoggá teszi az embereket).

A Delphi AI azonban tanul a tapasztalataiból, és úgy tűnik, hogy a visszajelzések alapján frissíti a válaszait. Egyes szakértőket nyugtalanítja a kutatás nyilvános és nyílt használata, mivel a modell folyamatban van, és hajlamos a hibás válaszokra. Amikor az Ask Delphi debütált, Mar Hicks, az Illinois Tech történelemprofesszora, aki a nemekre, a munkára és a számítástechnika történetére szakosodott, azt mondta, hogy a kutatók hanyagsága hívta meg az embereket a használatára, mivel a Delphi azonnal rendkívül etikátlan válaszokat adott, és néhány teljes hülyeség.

A 2023, A világ többi része tanulmányt végzett az AI képgenerátorok torzításáról. A Midjourney segítségével a kutatók felfedezték, hogy a létrehozott képek megerősítik a meglévő sztereotípiákat. Ezen túlmenően, amikor az OpenAI szűrőket alkalmazott a DALL-E 2 képgenerálási modell betanítási adataira, ez akaratlanul is felerősítette a nemhez kapcsolódó torzításokat.

A problémás képzési adatok következményei

A problémás képzési adatok szélesebb körű következményei lehetnek:

Megerősített előítéletek a kutatási projektekben, szolgáltatásokban és programfejlesztésben. A problémás képzési adatok különösen aggályosak, ha a bűnüldöző és banki intézményekben használják (pl. kisebbségi csoportokat hátrányosan megcélozva).
Megnövekedett befektetés és fejlesztés a képzési adatok bővítésében és választékában.
Egyre több kormány szigorítja a szabályozást annak érdekében, hogy korlátozza a vállalatok képzési adatainak fejlesztését, értékesítését és felhasználását különféle kereskedelmi kezdeményezésekhez.
Egyre több vállalkozás hoz létre etikai osztályokat annak biztosítására, hogy a mesterséges intelligencia rendszerek által működtetett projektek kövesse az etikai irányelveket.
A mesterséges intelligencia egészségügyben való használatának fokozott ellenőrzése, ami szigorúbb adatkezeléshez, a betegek adatainak védelméhez és az etikus mesterséges intelligencia alkalmazásához vezet.
Fokozott együttműködés a köz- és a magánszektorban a mesterséges intelligencia műveltségének előmozdítása érdekében, felvértezve a munkaerőt a mesterséges intelligencia által uralt jövő készségeivel.
A mesterséges intelligencia átláthatóságát elősegítő eszközök iránti kereslet növekedése, ami arra készteti a vállalatokat, hogy a magyarázhatóságot részesítsék előnyben a fogyasztók megértése és bizalma érdekében.