Վերապատրաստման խնդրահարույց տվյալներ. Երբ AI-ին ուսուցանում են կողմնակալ տվյալներ

ՊԱՏԿԵՐԻ ՎԱՐԿ.
Image վարկային
iStock- ը

Վերապատրաստման խնդրահարույց տվյալներ. Երբ AI-ին ուսուցանում են կողմնակալ տվյալներ

Վերապատրաստման խնդրահարույց տվյալներ. Երբ AI-ին ուսուցանում են կողմնակալ տվյալներ

Ենթավերնագրի տեքստը
Արհեստական ​​ինտելեկտի համակարգերը երբեմն ներկայացվում են սուբյեկտիվ տվյալների հետ, որոնք կարող են ազդել, թե ինչպես է նա գործում և որոշումներ կայացնում:
    • Հեղինակ:
    • Հեղինակ անունը
      Quantumrun Հեռատեսություն
    • Հոկտեմբեր 14, 2022

    Insight ամփոփում

    Մենք այն ենք, ինչ սովորում և ներքինացնում ենք. այս թելադրանքը վերաբերում է նաև արհեստական ​​ինտելեկտին (AI): Մեքենայական ուսուցման (ML) մոդելները, որոնք սնվում են թերի, կողմնակալ և ոչ էթիկական տվյալներով, ի վերջո խնդրահարույց որոշումներ և առաջարկներ կկայացնեն: Այս հզոր ալգորիթմներն այնուհետև կարող են ազդել օգտվողների բարոյականության և ընկալումների վրա, եթե հետազոտողները զգույշ չլինեն:

    Վերապատրաստման խնդրահարույց տվյալների համատեքստ

    2010-ական թվականներից ի վեր հետազոտական ​​թիմերը ստուգվում են ոչ պիտանի բովանդակությամբ ուսուցման տվյալների հավաքածուներ օգտագործելու կամ ոչ էթիկական եղանակով հավաքելու համար: Օրինակ՝ 2016 թվականին Microsoft-ի MS-Celeb-1M տվյալների բազան ներառում էր 10 տարբեր հայտնիների 100,000 միլիոն պատկեր: Այնուամենայնիվ, հետագա ստուգումից հետո թղթակիցները պարզեցին, որ բազմաթիվ լուսանկարներ սովորական մարդկանցից են, որոնք հանվել են տարբեր կայքերից՝ առանց սեփականատիրոջ համաձայնության կամ իմացության:

    Չնայած այս գիտակցմանը, տվյալների բազան շարունակել է օգտագործվել այնպիսի խոշոր ընկերությունների կողմից, ինչպիսիք են Facebook-ը և SenseTime-ը՝ դեմքի ճանաչման չինական ընկերությունը, որը կապեր ունի նահանգի ոստիկանության հետ: Նմանապես, Դյուկի համալսարանի համալսարանում (DukeMTMC) քայլող մարդկանց նկարներ պարունակող տվյալների բազան նույնպես համաձայնություն չհավաքեց: Ի վերջո, երկու տվյալների հավաքածուները հեռացվեցին: 

    Մասաչուսեթսի տեխնոլոգիական ինստիտուտի (MIT) հետազոտողները ստեղծեցին Norman կոչվող արհեստական ​​ինտելեկտը, որպեսզի ընդգծեն խնդրահարույց ուսուցման տվյալների վնասակար ազդեցությունը, որը նրանք սովորեցնում էին նկարների վերնագրեր կատարել ենթակարեդիտից, որն ընդգծում էր գրաֆիկական բռնությունը: Այնուհետև թիմը Նորմանին տեղադրեց սովորական տվյալների օգտագործմամբ պատրաստված նեյրոնային ցանցի դեմ: Հետազոտողները երկու համակարգերին էլ տրամադրել են Rorschach թանաքային բծեր և խնդրել են AI-ներին նկարագրել իրենց տեսածը: Արդյունքները ապշեցուցիչ էին. այնտեղ, որտեղ ստանդարտ նեյրոնային ցանցը տեսավ «բեյսբոլի ձեռնոցի սև ու սպիտակ լուսանկար», Նորմանը նկատեց «օրը ցերեկով գնդացիրով սպանված տղամարդու»: Փորձը ցույց տվեց, որ AI-ն ինքնաբերաբար կողմնակալ չէ, սակայն տվյալների մուտքագրման այդ մեթոդները և դրանց ստեղծողների մոտիվները կարող են զգալիորեն ազդել AI-ի վարքագծի վրա:

    Խանգարող ազդեցություն

    2021 թվականին Allen Institute for AI-ի հետազոտական ​​կազմակերպությունը ստեղծեց Ask Delphi-ը՝ ML ծրագրակազմ, որն ալգորիթմորեն առաջացնում է պատասխաններ ցանկացած էթիկական հարցի պատասխանների համար: Նախագծի հետևում կանգնած հետազոտողները հայտարարեցին, որ AI-ն աստիճանաբար դառնում է ավելի հզոր և ծանոթ, ուստի գիտնականները պետք է սովորեցնեն այս ML համակարգերի էթիկան: Unicorn ML մոդելը Delphi-ի հիմքն է: Այն ձևակերպվել է «առողջ դատողության» պատճառաբանություն իրականացնելու համար, ինչպես օրինակ՝ ընտրելով տեքստային տողի ամենահավանական վերջաբանը։ 

    Ավելին, հետազոտողները օգտագործել են «Commonsense Norm Bank»-ը: Այս բանկը բաղկացած է Reddit-ի նման վայրերից մարդկանց էթիկական գնահատականների 1.7 միլիոն օրինակներից: Արդյունքում, Delphi-ի արտադրանքը խառը տոպրակ էր: Դելֆին որոշ հարցերի պատասխանում էր ողջամտորեն (օրինակ՝ տղամարդկանց և կանանց իրավահավասարությունը), մինչդեռ որոշ թեմաներում Դելֆին բացարձակ վիրավորական էր (օրինակ՝ ցեղասպանությունն ընդունելի է այնքան ժամանակ, քանի դեռ այն ուրախացնում էր մարդկանց):

    Այնուամենայնիվ, Delphi AI-ն սովորում է իր փորձից և կարծես թե թարմացնում է իր պատասխանները՝ հիմնվելով արձագանքների վրա: Որոշ փորձագետներ անհանգստացած են հետազոտության հրապարակային և բաց կիրառությունից՝ հաշվի առնելով, որ մոդելն ընթացքի մեջ է և հակված է անկանոն պատասխանների: Երբ Ask Delphi-ի դեբյուտը ներկայացվեց, Illinois Tech-ի պատմության պրոֆեսոր Մար Հիքսը, որը մասնագիտացած է սեռի, աշխատանքի և հաշվարկների պատմության մեջ, ասաց, որ հետազոտողները անփույթ են եղել մարդկանց հրավիրել օգտագործել այն, հաշվի առնելով, որ Դելֆին անմիջապես տվել է ծայրահեղ հակաէթիկայի պատասխաններ, և որոշ կատարյալ անհեթեթություն. 

    Ի 2023, Մնացած աշխարհը հետազոտություն է անցկացրել արհեստական ​​ինտելեկտի պատկերների գեներատորներում կողմնակալության վերաբերյալ: Օգտագործելով Midjourney-ը, հետազոտողները պարզեցին, որ ստեղծված պատկերները հաստատում են գոյություն ունեցող կարծրատիպերը: Բացի այդ, երբ OpenAI-ը զտիչներ կիրառեց վերապատրաստման տվյալների վրա իր DALL-E 2 պատկերների ստեղծման մոդելի համար, այն ակամա ուժեղացրեց սեռի հետ կապված կողմնակալությունը:

    Վերապատրաստման խնդրահարույց տվյալների հետևանքները

    Վերապատրաստման խնդրահարույց տվյալների ավելի լայն հետևանքները կարող են ներառել. 

    • Ուժեղացված կողմնակալություն հետազոտական ​​նախագծերի, ծառայությունների և ծրագրերի մշակման մեջ: Վերապատրաստման խնդրահարույց տվյալները հատկապես մտահոգիչ են, եթե դրանք օգտագործվում են իրավապահ և բանկային հաստատություններում (օրինակ՝ փոքրամասնությունների խմբերի վրա բացասաբար ուղղված):
    • Ավելացված ներդրումներ և զարգացում վերապատրաստման տվյալների աճի և տեսականու մեջ: 
    • Ավելի շատ կառավարություններ ավելացնում են կանոնակարգերը՝ սահմանափակելու, թե ինչպես են կորպորացիաները զարգացնում, վաճառում և օգտագործում վերապատրաստման տվյալները տարբեր առևտրային նախաձեռնությունների համար:
    • Ավելի շատ ձեռնարկություններ հիմնում են էթիկայի բաժիններ՝ ապահովելու, որ AI համակարգերով աշխատող նախագծերը հետևեն էթիկական ուղեցույցներին:
    • Առողջապահության ոլորտում արհեստական ​​ինտելեկտի օգտագործման ուժեղացված ստուգում, որը հանգեցնում է տվյալների ավելի խիստ կառավարման՝ ապահովելով հիվանդների գաղտնիությունը և էթիկական AI կիրառումը:
    • Ավելացել է պետական ​​և մասնավոր հատվածի համագործակցությունը՝ զարգացնելու արհեստական ​​ինտելեկտի գրագիտությունը՝ աշխատուժին համալրելով արհեստական ​​ինտելեկտի գերիշխող ապագայի հմտություններով:
    • Արհեստական ​​ինտելեկտի թափանցիկության գործիքների պահանջարկի աճ՝ ընկերություններին առաջնորդելով առաջնահերթություն տալ AI համակարգերում բացատրելիությանը սպառողների հասկացողության և վստահության համար:

    Հարցեր, որոնք պետք է հաշվի առնել

    • Ինչպե՞ս կարող են կազմակերպությունները խուսափել վերապատրաստման խնդրահարույց տվյալների օգտագործումից:
    • Որո՞նք են ոչ բարոյական վերապատրաստման տվյալների այլ հնարավոր հետևանքները: