Quantumrun

CREDIT NG LARAWAN:

iStock

Problemadong data ng pagsasanay: Kapag ang AI ay tinuturuan ng bias na data

Ang mga artificial intelligence system ay minsan ay ipinakilala na may subjective na data na maaaring makaapekto sa kung paano ito kumikilos at gumagawa ng mga desisyon.

May-akda:
pangalan Author
Quantumrun Foresight
Oktubre 14, 2022

Buod ng pananaw

Tayo ang ating natutunan at isinasaloob; nalalapat din ang dictum na ito sa artificial intelligence (AI). Ang mga modelo ng machine learning (ML) na pinapakain ng hindi kumpleto, bias, at hindi etikal na data ay gagawa ng mga problemang desisyon at mungkahi. Ang makapangyarihang mga algorithm na ito ay maaaring maka-impluwensya sa moralidad at pananaw ng mga user kung hindi maingat ang mga mananaliksik.

Problemadong konteksto ng data ng pagsasanay

Mula noong 2010s, sinisiyasat ang mga research team para sa paggamit ng mga dataset ng pagsasanay na may hindi angkop na nilalaman o natipon nang hindi etikal. Halimbawa, noong 2016, ang database ng MS-Celeb-1M ng Microsoft ay may kasamang 10 milyong larawan ng 100,000 iba't ibang celebrity. Gayunpaman, sa karagdagang inspeksyon, natuklasan ng mga correspondent na maraming mga larawan ay ng mga ordinaryong tao na nakuha mula sa iba't ibang mga website nang walang pahintulot o kaalaman ng may-ari.

Sa kabila ng pagsasakatuparan na ito, ang dataset ay patuloy na ginagamit ng mga pangunahing kumpanya tulad ng Facebook at SenseTime, isang Chinese na kumpanya sa pagkilala sa mukha na may mga link sa pulisya ng estado. Katulad nito, ang isang dataset na naglalaman ng mga larawan ng mga taong naglalakad sa campus ng Duke University (DukeMTMC) ay hindi rin kumuha ng pahintulot. Sa kalaunan, ang parehong mga dataset ay inalis.

Upang i-highlight ang mga nakakapinsalang epekto ng may problemang data ng pagsasanay, ang mga mananaliksik sa Massachusetts Institute of Technology (MIT) ay lumikha ng AI na tinatawag na Norman na itinuro nilang magsagawa ng captioning ng larawan mula sa isang subreddit na nagha-highlight ng graphic na karahasan. Pagkatapos ay inilagay ng koponan si Norman laban sa isang neural network na sinanay gamit ang conventional data. Ang mga mananaliksik ay nagbigay ng parehong mga sistema ng Rorschach inkblots at hiniling sa mga AI na ilarawan kung ano ang kanilang nakita. Ang mga resulta ay napakaganda: kung saan ang karaniwang neural network ay nakakita ng "isang itim at puting larawan ng isang baseball glove," naobserbahan ni Norman ang "isang lalaking pinatay ng machine gun sa sikat ng araw." Ipinakita ng eksperimento na ang AI ay hindi awtomatikong pinapanigan, ngunit ang mga pamamaraan ng pag-input ng data na iyon at ang mga motibo ng kanilang mga tagalikha ay maaaring makabuluhang makaapekto sa gawi ng isang AI.

Nakakagambalang epekto

Noong 2021, nilikha ng organisasyon ng pananaliksik na Allen Institute para sa AI ang Ask Delphi, isang ML software na algorithm na bumubuo ng mga tugon para sa mga sagot sa anumang etikal na tanong. Ang mga mananaliksik sa likod ng proyekto ay nagpahayag na ang AI ay unti-unting nagiging mas malakas at pamilyar, kaya kailangan ng mga siyentipiko na ituro ang mga etika ng ML system na ito. Ang modelo ng Unicorn ML ay ang pundasyon ng Delphi. Ito ay binuo upang magsagawa ng "common sense" na pangangatwiran, tulad ng pagpili ng pinaka-malamang na pagtatapos sa isang text string.

Higit pa rito, ginamit ng mga mananaliksik ang 'Commonsense Norm Bank.' Binubuo ang bangkong ito ng 1.7 milyong halimbawa ng mga etikal na pagsusuri ng mga tao mula sa mga lugar tulad ng Reddit. Bilang isang resulta, ang output ng Delphi ay isang halo-halong bag. Sinagot ni Delphi ang ilang tanong nang makatwiran (hal., pagkakapantay-pantay sa pagitan ng mga lalaki at babae), samantalang, sa ilang mga paksa, talagang nakakasakit si Delphi (hal., katanggap-tanggap ang genocide hangga't ito ay nagpapasaya sa mga tao).

Gayunpaman, natututo ang Delphi AI mula sa mga karanasan nito at tila ina-update ang mga sagot nito batay sa feedback. Ang ilang mga eksperto ay nababagabag sa publiko at bukas na paggamit ng pananaliksik, kung isasaalang-alang ang modelo ay isinasagawa at madaling kapitan ng mga mali-mali na sagot. Nang mag-debut ang Ask Delphi, sinabi ni Mar Hicks, isang propesor ng History sa Illinois Tech na dalubhasa sa kasarian, paggawa, at kasaysayan ng computing, na kapabayaan ng mga mananaliksik na anyayahan ang mga tao na gamitin ito, kung isasaalang-alang ang Delphi na agad na nagbigay ng mga hindi etikal na sagot at ilang kumpletong kalokohan.

Sa 2023, Pahinga ng Mundo nagsagawa ng pag-aaral sa bias sa mga generator ng imahe ng AI. Gamit ang Midjourney, natuklasan ng mga mananaliksik na ang mga nabuong larawan ay nagpapatunay sa mga umiiral nang stereotype. Bilang karagdagan, kapag naglapat ang OpenAI ng mga filter sa data ng pagsasanay para sa DALL-E 2 na modelo ng pagbuo ng imahe nito, hindi sinasadya nitong pinatindi ang mga bias na nauugnay sa kasarian.

Mga implikasyon ng may problemang data ng pagsasanay

Ang mas malawak na implikasyon ng may problemang data ng pagsasanay ay maaaring kabilang ang:

Pinalakas ang mga bias sa mga proyekto ng pananaliksik, serbisyo, at pagbuo ng programa. Ang data ng problemang pagsasanay ay partikular na may kinalaman kung ginagamit sa pagpapatupad ng batas at mga institusyong pagbabangko (hal., masamang nagta-target sa mga grupo ng minorya).
Tumaas na pamumuhunan at pag-unlad sa paglago at assortment ng data ng pagsasanay.
Mas maraming pamahalaan ang nagdaragdag ng mga regulasyon upang limitahan kung paano bumuo, nagbebenta, at gumagamit ng data ng pagsasanay ang mga korporasyon para sa iba't ibang mga komersyal na inisyatiba.
Mas maraming negosyo na nagtatatag ng mga departamento ng etika upang matiyak na ang mga proyektong pinapagana ng mga AI system ay sumusunod sa mga alituntuning etikal.
Pinahusay na pagsusuri sa paggamit ng AI sa pangangalagang pangkalusugan na humahantong sa mas mahigpit na pamamahala ng data, na tinitiyak ang privacy ng pasyente at etikal na aplikasyon ng AI.
Dagdagan ang pakikipagtulungan sa publiko at pribadong sektor upang pasiglahin ang AI literacy, na nagbibigay ng mga kasanayan sa workforce para sa hinaharap na pinangungunahan ng AI.
Tumaas ang demand para sa AI transparency tool, na humahantong sa mga kumpanya na unahin ang pagpapaliwanag sa AI system para sa pag-unawa at pagtitiwala ng consumer.

Mga katanungang dapat isaalang-alang

Paano maiiwasan ng mga organisasyon ang paggamit ng may problemang data ng pagsasanay?
Ano ang iba pang potensyal na kahihinatnan ng hindi etikal na data ng pagsasanay?

Idagdag sa listahan