Quantumrun

KREDIT OBRAZU:

iStock

Problematická trénovací data: Když se AI učí neobjektivní data

Systémy umělé inteligence jsou někdy představeny se subjektivními údaji, které mohou ovlivnit, jak jedná a činí rozhodnutí.

Autor:
jméno autora
Quantumrun Foresight
Října 14, 2022

Shrnutí statistik

Jsme tím, co se učíme a internalizujeme; toto pravidlo platí také pro umělou inteligenci (AI). Modely strojového učení (ML) napájené neúplnými, neobjektivními a neetickými daty nakonec přinesou problematická rozhodnutí a návrhy. Tyto výkonné algoritmy pak mohou ovlivnit morálku a vnímání uživatelů, pokud výzkumníci nebudou opatrní.

Problematický kontext tréninkových dat

Od roku 2010 jsou výzkumné týmy podrobeny kontrole, zda používají tréninkové datové sady s nevhodným obsahem nebo shromážděné neeticky. Například v roce 2016 obsahovala databáze MS-Celeb-1M společnosti Microsoft 10 milionů obrázků 100,000 XNUMX různých celebrit. Při další kontrole však korespondenti zjistili, že na mnoha fotografiích byli obyčejní lidé stažené z různých webových stránek bez souhlasu nebo vědomí majitele.

Navzdory tomuto zjištění byl datový soubor nadále využíván velkými společnostmi, jako je Facebook a SenseTime, čínská společnost pro rozpoznávání obličejů s napojením na státní policii. Podobně souhlas nezískal ani datový soubor obsahující obrázky lidí procházejících se po kampusu Duke University (DukeMTMC). Nakonec byly obě datové sady odstraněny.

Aby upozornili na škodlivé účinky problematických tréninkových dat, vytvořili vědci z Massachusettského technologického institutu (MIT) AI s názvem Norman, kterou naučili provádět titulky obrázků ze subredditu, který zvýrazňoval grafické násilí. Tým poté Normana umístil proti neuronové síti trénované pomocí konvenčních dat. Výzkumníci dodali oběma systémům Rorschachovy inkoustové skvrny a požádali AI, aby popsaly, co viděli. Výsledky byly ohromující: tam, kde standardní neuronová síť viděla „černobílou fotografii baseballové rukavice“, Norman pozoroval „muže zavražděného kulometem za bílého dne“. Experiment ukázal, že AI není automaticky zaujatá, ale tyto metody zadávání dat a motivy jejich tvůrců mohou významně ovlivnit chování AI.

Rušivý dopad

V roce 2021 vytvořila výzkumná organizace Allen Institute for AI Ask Delphi, software ML, který algoritmicky generuje odpovědi na jakékoli etické otázky. Výzkumníci za projektem uvedli, že umělá inteligence se postupně stává výkonnější a známější, takže vědci potřebují naučit tyto systémy ML etiku. Model Unicorn ML je základem Delphi. Byl formulován tak, aby prováděl uvažování „zdravým rozumem“, jako je výběr nejpravděpodobnějšího konce textového řetězce.

Kromě toho výzkumníci použili 'Commonsense Norm Bank.' Tato banka se skládá z 1.7 milionu příkladů etického hodnocení lidí z míst, jako je Reddit. Výsledkem bylo, že výstupem Delphi byl smíšený pytel. Delphi odpověděla na některé otázky rozumně (např. rovnost mezi muži a ženami), zatímco na některá témata byla Delphi přímo urážlivá (např. genocida je přijatelná, pokud dělá lidi šťastnými).

Umělá inteligence Delphi se však učí ze svých zkušeností a zdá se, že své odpovědi aktualizuje na základě zpětné vazby. Někteří odborníci jsou znepokojeni veřejným a otevřeným používáním výzkumu, protože model probíhá a je náchylný k nejasným odpovědím. Když Ask Delphi debutoval, Mar Hicks, profesor historie na Illinois Tech se specializací na gender, práci a historii výpočetní techniky, řekl, že bylo nedbalostí výzkumníků zvát lidi, aby to používali, protože Delphi okamžitě poskytl extrémně neetické odpovědi a některé úplný nesmysl.

V 2023, Zbytek světa provedli studii o zkreslení v generátorech obrázků AI. Pomocí Midjourney vědci zjistili, že generované obrázky potvrzují existující stereotypy. Navíc, když OpenAI aplikovalo filtry na trénovací data pro svůj model generování obrázků DALL-E 2, neúmyslně to zesílilo předsudky související s pohlavím.

Důsledky problematických tréninkových dat

Širší důsledky problematických tréninkových dat mohou zahrnovat:

Posílené předsudky ve výzkumných projektech, službách a vývoji programů. Problematické údaje o školení jsou zvláště znepokojivé, pokud jsou používány v donucovacích a bankovních institucích (např. nepříznivě zaměřené na menšinové skupiny).
Zvýšené investice a rozvoj do růstu a sortimentu tréninkových dat.
Více vlád zvyšuje regulaci, která omezuje, jak společnosti vyvíjejí, prodávají a používají školicí data pro různé komerční iniciativy.
Více firem zakládá etická oddělení, aby zajistily, že projekty založené na systémech umělé inteligence dodržují etické pokyny.
Posílená kontrola používání AI ve zdravotnictví vede k přísnější správě dat, zajištění soukromí pacientů a etické aplikace AI.
Větší spolupráce veřejného a soukromého sektoru s cílem podpořit gramotnost v oblasti umělé inteligence a vybavit pracovní sílu dovednostmi pro budoucnost ovládanou umělou inteligencí.
Růst poptávky po nástrojích pro transparentnost AI, což vede společnosti k tomu, že upřednostňují vysvětlitelnost v systémech AI pro porozumění a důvěru spotřebitelů.