Kuantumrun

KREDIT GAMBAR:

iStock

Data latihan masalah: Nalika AI diajarkeun data bias

Sistem kecerdasan jieunan kadang diwanohkeun ku data subjektif nu bisa mangaruhan kumaha eta meta jeung nyieun kaputusan.

Author:
Ngaran pangarang
Quantumrun tetempoan
Oktober 14, 2022

Ringkesan wawasan

Kami naon urang diajar tur internalize; dictum ieu ogé lumaku pikeun kecerdasan jieunan (AI). Modél pembelajaran mesin (ML) anu disayogikeun ku data anu teu lengkep, bias, sareng henteu étika pamustunganana bakal nyandak kaputusan sareng saran anu bermasalah. Algoritma anu kuat ieu teras tiasa mangaruhan moralitas sareng persepsi pangguna upami peneliti henteu ati-ati.

Kontéks data latihan masalah

Kusabab 2010s, tim peneliti geus scrutinized pikeun ngagunakeun datasets latihan kalawan eusi teu cocog atawa dikumpulkeun unethically. Salaku conto, dina 2016, database MS-Celeb-1M Microsoft kalebet 10 juta gambar tina 100,000 selebriti anu béda. Nanging, saatos pamariksaan salajengna, koresponden mendakan yén seueur poto jalma biasa ditarik tina sababaraha situs wéb tanpa idin atanapi pangaweruh anu gaduh.

Sanaos realisasi ieu, set data terus dianggo ku perusahaan-perusahaan utama sapertos Facebook sareng SenseTime, perusahaan pangenal wajah Cina anu aya hubunganana ka pulisi nagara. Nya kitu, susunan data anu ngandung gambar jalma anu leumpang di kampus Duke University (DukeMTMC) ogé henteu nampi idin. Antukna, duanana datasets dihapus.

Pikeun nyorot épék ngarusak data latihan anu bermasalah, peneliti di Massachusetts Institute of Technology (MIT) nyiptakeun AI anu disebut Norman anu aranjeunna ngajarkeun ngalaksanakeun captioning gambar tina subreddit anu nyorot kekerasan grafis. Tim éta teras nempatkeun Norman ngalawan jaringan saraf anu dilatih nganggo data konvensional. Panaliti nyayogikeun duanana sistem sareng inkblots Rorschach sareng naroskeun ka AI pikeun ngajelaskeun naon anu aranjeunna tingali. Hasilna stunning: dimana jaringan neural standar nempo "poto hideung bodas tina sarung baseball," Norman observasi "lalaki ditelasan ku bedil mesin dina terangan lega." Eksperimen nunjukkeun yén AI henteu otomatis bias, tapi metode input data sareng motif panyipta na tiasa mangaruhan sacara signifikan kana paripolah AI.

Dampak ngaganggu

Taun 2021, organisasi riset Allen Institute for AI nyiptakeun Ask Delphi, parangkat lunak ML anu sacara algoritma ngahasilkeun réspon pikeun jawaban kana patarosan étika. Panaliti di tukangeun proyék éta nyatakeun yén AI laun-laun janten langkung kuat sareng akrab, janten para ilmuwan kedah ngajarkeun étika sistem ML ieu. Modél Unicorn ML nyaéta pondasi Delphi. Éta dirumuskeun pikeun ngalaksanakeun penalaran "akal sehat", sapertos milih tungtung anu paling dipikaresep pikeun senar téks.

Saterusna, peneliti ngagunakeun 'Commonsense Norm Bank.' Bank ieu diwangun ku 1.7 juta conto evaluasi etika masarakat ti tempat sapertos Reddit. Hasilna, kaluaran Delphi éta kantong dicampur. Delphi ngajawab sababaraha patarosan alesan (misalna sarua antara lalaki jeung awewe), sedengkeun dina sababaraha jejer, Delphi éta downright karasa (misalna genocide bisa ditarima salami eta dijieun jalma senang).

Nanging, Delphi AI diajar tina pangalamanana sareng sigana ngamutahirkeun jawabanna dumasar kana eupan balik. Sababaraha ahli anu kaganggu ku panalungtikan umum tur pamakéan kabuka, tempo model keur lumangsung sarta rawan jawaban erratic. Nalika Tanya Delphi debut, Mar Hicks, profésor Sajarah di Illinois Tech specializing dina gender, kuli, jeung sajarah komputasi, ngomong yén éta hilap panalungtik pikeun ngundang jalma ngagunakeun eta, tempo Delphi geuwat nyadiakeun jawaban pisan unethical jeung sababaraha. lengkep omong kosong.

Dina 2023, Istirahat Dunya dilakukeun ulikan ngeunaan bias dina generator gambar AI. Ngagunakeun Midjourney, peneliti manggihan yén gambar dihasilkeun negeskeun stereotypes aya. Salaku tambahan, nalika OpenAI ngalarapkeun saringan kana data palatihan pikeun modél generasi gambar DALL-E 2 na, éta ngahaja ningkatkeun bias anu aya hubunganana sareng gender.

Implikasi data latihan masalah

Implikasi anu langkung ageung tina data latihan anu bermasalah tiasa kalebet:

Bias anu diperkuat dina proyék panalungtikan, jasa, sareng pamekaran program. Data palatihan anu bermasalah khususna upami dianggo dina penegak hukum sareng lembaga perbankan (contona, nargétkeun kelompok minoritas).
Ningkatkeun investasi sareng pamekaran dina kamekaran sareng rupa-rupa data pelatihan.
Langkung seueur pamaréntahan ningkatkeun peraturan pikeun ngabatesan kumaha korporasi ngembangkeun, ngajual, sareng ngagunakeun data pelatihan pikeun sababaraha inisiatif komérsial.
Langkung seueur usaha anu ngadegkeun departemén étika pikeun mastikeun yén proyék anu dikuatkeun ku sistem AI nuturkeun pedoman étika.
Ningkatkeun panilitian ngeunaan panggunaan AI dina palayanan kaséhatan ngarah kana pamaréntahan data anu langkung ketat, mastikeun privasi pasien sareng aplikasi AI anu étika.
Ningkatkeun kolaborasi sektor publik sareng swasta pikeun ngabina literasi AI, ngalengkepan tenaga kerja sareng kaahlian pikeun masa depan anu didominasi AI.
Naékna paménta pikeun alat transparansi AI, ngarah perusahaan pikeun prioritas penjelasan dina sistem AI pikeun pamahaman sareng kapercayaan konsumen.