Data ya mafunzo yenye matatizo: Wakati AI inafundishwa data yenye upendeleo

MKOPO WA PICHA:
Mkopo wa picha
Stock

Data ya mafunzo yenye matatizo: Wakati AI inafundishwa data yenye upendeleo

Data ya mafunzo yenye matatizo: Wakati AI inafundishwa data yenye upendeleo

Maandishi ya kichwa kidogo
Mifumo ya kijasusi Bandia wakati mwingine huletwa na data ya kibinafsi ambayo inaweza kuathiri jinsi inavyofanya kazi na kufanya maamuzi.
    • mwandishi:
    • mwandishi jina
      Mtazamo wa Quantumrun
    • Oktoba 14, 2022

    Muhtasari wa maarifa

    Sisi ni kile tunachojifunza na kuweka ndani; dictum hii pia inatumika kwa akili ya bandia (AI). Miundo ya kujifunza kwa mashine (ML) iliyolishwa kwa data isiyokamilika, yenye upendeleo na isiyo ya kimaadili hatimaye itafanya maamuzi na mapendekezo yenye matatizo. Kanuni hizi zenye nguvu zinaweza kuathiri maadili na mitazamo ya watumiaji ikiwa watafiti hawatakuwa makini.

    Muktadha wa data wa mafunzo wenye matatizo

    Tangu miaka ya 2010, timu za utafiti zimechunguzwa kwa kutumia hifadhidata za mafunzo zenye maudhui yasiyofaa au zilizokusanywa kinyume cha maadili. Kwa mfano, mnamo 2016, hifadhidata ya Microsoft ya MS-Celeb-1M ilijumuisha picha milioni 10 za watu mashuhuri 100,000 tofauti. Hata hivyo, baada ya ukaguzi zaidi, wanahabari waligundua kuwa picha nyingi zilikuwa za watu wa kawaida kutoka kwa tovuti mbalimbali bila idhini ya mmiliki au ujuzi.

    Licha ya utambuzi huu, mkusanyiko wa data uliendelea kutumiwa na makampuni makubwa kama vile Facebook na SenseTime, kampuni ya Kichina ya utambuzi wa uso yenye viungo kwa polisi wa serikali. Vile vile, seti ya data iliyo na picha za watu wanaotembea kwenye chuo kikuu cha Duke (DukeMTMC) haikukusanya idhini pia. Hatimaye, hifadhidata zote mbili ziliondolewa. 

    Ili kuangazia madhara ya data yenye matatizo ya mafunzo, watafiti katika Taasisi ya Teknolojia ya Massachusetts (MIT) waliunda AI iitwayo Norman ambayo walifundisha kutekeleza manukuu ya picha kutoka kwa subreddit iliyoangazia vurugu ya picha. Timu kisha ikamweka Norman dhidi ya mtandao wa neva uliofunzwa kwa kutumia data ya kawaida. Watafiti walitoa mifumo yote miwili na vibao vya wino vya Rorschach na kuwauliza AIs kuelezea kile walichokiona. Matokeo yalikuwa ya kushangaza: ambapo mtandao wa kawaida wa neva uliona "picha nyeusi na nyeupe ya glovu ya besiboli," Norman aliona "mtu aliyeuawa kwa bunduki mchana kweupe." Jaribio lilionyesha kuwa AI haina upendeleo kiotomatiki, lakini mbinu hizo za kuingiza data na nia za watayarishi wao zinaweza kuathiri pakubwa tabia ya AI.

    Athari ya usumbufu

    Mnamo mwaka wa 2021, shirika la utafiti la Taasisi ya Allen ya AI liliunda Uliza Delphi, programu ya ML ambayo hutoa majibu ya majibu kwa swali lolote la kimaadili. Watafiti nyuma ya mradi huo walisema kuwa AI inazidi kuwa na nguvu na inayojulikana polepole, kwa hivyo wanasayansi wanahitaji kufundisha maadili haya ya mifumo ya ML. Mfano wa Unicorn ML ndio msingi wa Delphi. Iliundwa ili kutekeleza hoja ya "akili ya kawaida", kama vile kuchagua mwisho unaowezekana zaidi wa mfuatano wa maandishi. 

    Zaidi ya hayo, watafiti walitumia 'Commonsense Norm Bank.' Benki hii ina mifano milioni 1.7 ya tathmini za maadili za watu kutoka maeneo kama vile Reddit. Matokeo yake, pato la Delphi lilikuwa mfuko mchanganyiko. Delphi ilijibu baadhi ya maswali kwa njia inayofaa (k.m., usawa kati ya wanaume na wanawake), ilhali, kwenye baadhi ya mada, Delphi ilikuwa ya kuudhi kabisa (k.m., mauaji ya halaiki yanakubalika mradi tu yaliwafurahisha watu).

    Hata hivyo, Delphi AI inajifunza kutokana na uzoefu wake na inaonekana kusasisha majibu yake kulingana na maoni. Wataalamu wengine wanatatizwa na matumizi ya umma na ya wazi ya utafiti, ikizingatiwa kuwa modeli inaendelea na inakabiliwa na majibu yasiyo na uhakika. Wakati Uliza Delphi ilipojadili kwa mara ya kwanza, Mar Hicks, profesa wa Historia katika Illinois Tech aliyebobea katika masuala ya jinsia, kazi, na historia ya kompyuta, alisema kuwa ilikuwa ni uzembe wa watafiti kuwaalika watu kuitumia, ikizingatiwa kwamba Delphi ilitoa majibu yasiyo ya kimaadili mara moja. ujinga kamili. 

    Katika 2023, Mapumziko ya Dunia ilifanya utafiti juu ya upendeleo katika jenereta za picha za AI. Kwa kutumia Midjourney, watafiti waligundua kwamba picha zinazozalishwa zinathibitisha dhana zilizopo. Zaidi ya hayo, OpenAI ilipotumia vichujio kwenye data ya mafunzo kwa muundo wake wa kutengeneza picha wa DALL-E 2, ilizidisha bila kukusudia upendeleo unaohusiana na jinsia.

    Athari za data za mafunzo zenye shida

    Athari pana za data za mafunzo zenye matatizo zinaweza kujumuisha: 

    • Kuimarishwa kwa upendeleo katika miradi ya utafiti, huduma, na ukuzaji wa programu. Data yenye matatizo ya mafunzo inahusu hasa ikiwa inatumiwa katika utekelezaji wa sheria na taasisi za benki (km, kulenga vibaya vikundi vya wachache).
    • Kuongezeka kwa uwekezaji na maendeleo katika ukuaji na anuwai ya data ya mafunzo. 
    • Serikali zaidi zinazoongeza kanuni ili kuweka kikomo jinsi mashirika yanavyotengeneza, kuuza na kutumia data ya mafunzo kwa mipango mbalimbali ya kibiashara.
    • Biashara zaidi zinazoanzisha idara za maadili ili kuhakikisha kuwa miradi inayoendeshwa na mifumo ya AI inafuata miongozo ya maadili.
    • Uchunguzi ulioimarishwa wa matumizi ya AI katika huduma ya afya na kusababisha udhibiti mkali wa data, kuhakikisha faragha ya mgonjwa na matumizi ya maadili ya AI.
    • Kuongezeka kwa ushirikiano wa sekta ya umma na ya kibinafsi ili kukuza ujuzi wa kusoma na kuandika wa AI, kuwapa wafanyikazi ujuzi kwa mustakabali unaotawaliwa na AI.
    • Kuongezeka kwa mahitaji ya zana za uwazi za AI, inayoongoza kampuni kuweka kipaumbele katika mifumo ya AI kwa uelewa wa watumiaji na uaminifu.

    Maswali ya kuzingatia

    • Mashirika yanawezaje kuepuka kutumia data ya mafunzo yenye matatizo?
    • Je, ni matokeo gani mengine yanayoweza kutokea ya data ya mafunzo yasiyo ya kimaadili?