Quantumrun

ՊԱՏԿԵՐԻ ՎԱՐԿ.

iStock- ը

Վերապատրաստման խնդրահարույց տվյալներ. Երբ AI-ին ուսուցանում են կողմնակալ տվյալներ

Արհեստական ինտելեկտի համակարգերը երբեմն ներկայացվում են սուբյեկտիվ տվյալների հետ, որոնք կարող են ազդել, թե ինչպես է նա գործում և որոշումներ կայացնում:

Հեղինակ:
Հեղինակ անունը
Quantumrun Հեռատեսություն
Հոկտեմբեր 14, 2022

Insight ամփոփում

Մենք այն ենք, ինչ սովորում և ներքինացնում ենք. այս թելադրանքը վերաբերում է նաև արհեստական ինտելեկտին (AI): Մեքենայական ուսուցման (ML) մոդելները, որոնք սնվում են թերի, կողմնակալ և ոչ էթիկական տվյալներով, ի վերջո խնդրահարույց որոշումներ և առաջարկներ կկայացնեն: Այս հզոր ալգորիթմներն այնուհետև կարող են ազդել օգտվողների բարոյականության և ընկալումների վրա, եթե հետազոտողները զգույշ չլինեն:

Վերապատրաստման խնդրահարույց տվյալների համատեքստ

2010-ական թվականներից ի վեր հետազոտական թիմերը ստուգվում են ոչ պիտանի բովանդակությամբ ուսուցման տվյալների հավաքածուներ օգտագործելու կամ ոչ էթիկական եղանակով հավաքելու համար: Օրինակ՝ 2016 թվականին Microsoft-ի MS-Celeb-1M տվյալների բազան ներառում էր 10 տարբեր հայտնիների 100,000 միլիոն պատկեր: Այնուամենայնիվ, հետագա ստուգումից հետո թղթակիցները պարզեցին, որ բազմաթիվ լուսանկարներ սովորական մարդկանցից են, որոնք հանվել են տարբեր կայքերից՝ առանց սեփականատիրոջ համաձայնության կամ իմացության:

Չնայած այս գիտակցմանը, տվյալների բազան շարունակել է օգտագործվել այնպիսի խոշոր ընկերությունների կողմից, ինչպիսիք են Facebook-ը և SenseTime-ը՝ դեմքի ճանաչման չինական ընկերությունը, որը կապեր ունի նահանգի ոստիկանության հետ: Նմանապես, Դյուկի համալսարանի համալսարանում (DukeMTMC) քայլող մարդկանց նկարներ պարունակող տվյալների բազան նույնպես համաձայնություն չհավաքեց: Ի վերջո, երկու տվյալների հավաքածուները հեռացվեցին:

Մասաչուսեթսի տեխնոլոգիական ինստիտուտի (MIT) հետազոտողները ստեղծեցին Norman կոչվող արհեստական ինտելեկտը, որպեսզի ընդգծեն խնդրահարույց ուսուցման տվյալների վնասակար ազդեցությունը, որը նրանք սովորեցնում էին նկարների վերնագրեր կատարել ենթակարեդիտից, որն ընդգծում էր գրաֆիկական բռնությունը: Այնուհետև թիմը Նորմանին տեղադրեց սովորական տվյալների օգտագործմամբ պատրաստված նեյրոնային ցանցի դեմ: Հետազոտողները երկու համակարգերին էլ տրամադրել են Rorschach թանաքային բծեր և խնդրել են AI-ներին նկարագրել իրենց տեսածը: Արդյունքները ապշեցուցիչ էին. այնտեղ, որտեղ ստանդարտ նեյրոնային ցանցը տեսավ «բեյսբոլի ձեռնոցի սև ու սպիտակ լուսանկար», Նորմանը նկատեց «օրը ցերեկով գնդացիրով սպանված տղամարդու»: Փորձը ցույց տվեց, որ AI-ն ինքնաբերաբար կողմնակալ չէ, սակայն տվյալների մուտքագրման այդ մեթոդները և դրանց ստեղծողների մոտիվները կարող են զգալիորեն ազդել AI-ի վարքագծի վրա:

Խանգարող ազդեցություն

2021 թվականին Allen Institute for AI-ի հետազոտական կազմակերպությունը ստեղծեց Ask Delphi-ը՝ ML ծրագրակազմ, որն ալգորիթմորեն առաջացնում է պատասխաններ ցանկացած էթիկական հարցի պատասխանների համար: Նախագծի հետևում կանգնած հետազոտողները հայտարարեցին, որ AI-ն աստիճանաբար դառնում է ավելի հզոր և ծանոթ, ուստի գիտնականները պետք է սովորեցնեն այս ML համակարգերի էթիկան: Unicorn ML մոդելը Delphi-ի հիմքն է: Այն ձևակերպվել է «առողջ դատողության» պատճառաբանություն իրականացնելու համար, ինչպես օրինակ՝ ընտրելով տեքստային տողի ամենահավանական վերջաբանը։

Ավելին, հետազոտողները օգտագործել են «Commonsense Norm Bank»-ը: Այս բանկը բաղկացած է Reddit-ի նման վայրերից մարդկանց էթիկական գնահատականների 1.7 միլիոն օրինակներից: Արդյունքում, Delphi-ի արտադրանքը խառը տոպրակ էր: Դելֆին որոշ հարցերի պատասխանում էր ողջամտորեն (օրինակ՝ տղամարդկանց և կանանց իրավահավասարությունը), մինչդեռ որոշ թեմաներում Դելֆին բացարձակ վիրավորական էր (օրինակ՝ ցեղասպանությունն ընդունելի է այնքան ժամանակ, քանի դեռ այն ուրախացնում էր մարդկանց):

Այնուամենայնիվ, Delphi AI-ն սովորում է իր փորձից և կարծես թե թարմացնում է իր պատասխանները՝ հիմնվելով արձագանքների վրա: Որոշ փորձագետներ անհանգստացած են հետազոտության հրապարակային և բաց կիրառությունից՝ հաշվի առնելով, որ մոդելն ընթացքի մեջ է և հակված է անկանոն պատասխանների: Երբ Ask Delphi-ի դեբյուտը ներկայացվեց, Illinois Tech-ի պատմության պրոֆեսոր Մար Հիքսը, որը մասնագիտացած է սեռի, աշխատանքի և հաշվարկների պատմության մեջ, ասաց, որ հետազոտողները անփույթ են եղել մարդկանց հրավիրել օգտագործել այն, հաշվի առնելով, որ Դելֆին անմիջապես տվել է ծայրահեղ հակաէթիկայի պատասխաններ, և որոշ կատարյալ անհեթեթություն.

Ի 2023, Մնացած աշխարհը հետազոտություն է անցկացրել արհեստական ինտելեկտի պատկերների գեներատորներում կողմնակալության վերաբերյալ: Օգտագործելով Midjourney-ը, հետազոտողները պարզեցին, որ ստեղծված պատկերները հաստատում են գոյություն ունեցող կարծրատիպերը: Բացի այդ, երբ OpenAI-ը զտիչներ կիրառեց վերապատրաստման տվյալների վրա իր DALL-E 2 պատկերների ստեղծման մոդելի համար, այն ակամա ուժեղացրեց սեռի հետ կապված կողմնակալությունը:

Վերապատրաստման խնդրահարույց տվյալների հետևանքները

Վերապատրաստման խնդրահարույց տվյալների ավելի լայն հետևանքները կարող են ներառել.

Ուժեղացված կողմնակալություն հետազոտական նախագծերի, ծառայությունների և ծրագրերի մշակման մեջ: Վերապատրաստման խնդրահարույց տվյալները հատկապես մտահոգիչ են, եթե դրանք օգտագործվում են իրավապահ և բանկային հաստատություններում (օրինակ՝ փոքրամասնությունների խմբերի վրա բացասաբար ուղղված):
Ավելացված ներդրումներ և զարգացում վերապատրաստման տվյալների աճի և տեսականու մեջ:
Ավելի շատ կառավարություններ ավելացնում են կանոնակարգերը՝ սահմանափակելու, թե ինչպես են կորպորացիաները զարգացնում, վաճառում և օգտագործում վերապատրաստման տվյալները տարբեր առևտրային նախաձեռնությունների համար:
Ավելի շատ ձեռնարկություններ հիմնում են էթիկայի բաժիններ՝ ապահովելու, որ AI համակարգերով աշխատող նախագծերը հետևեն էթիկական ուղեցույցներին:
Առողջապահության ոլորտում արհեստական ինտելեկտի օգտագործման ուժեղացված ստուգում, որը հանգեցնում է տվյալների ավելի խիստ կառավարման՝ ապահովելով հիվանդների գաղտնիությունը և էթիկական AI կիրառումը:
Ավելացել է պետական և մասնավոր հատվածի համագործակցությունը՝ զարգացնելու արհեստական ինտելեկտի գրագիտությունը՝ աշխատուժին համալրելով արհեստական ինտելեկտի գերիշխող ապագայի հմտություններով:
Արհեստական ինտելեկտի թափանցիկության գործիքների պահանջարկի աճ՝ ընկերություններին առաջնորդելով առաջնահերթություն տալ AI համակարգերում բացատրելիությանը սպառողների հասկացողության և վստահության համար:

Հարցեր, որոնք պետք է հաշվի առնել

Ինչպե՞ս կարող են կազմակերպությունները խուսափել վերապատրաստման խնդրահարույց տվյալների օգտագործումից:
Որո՞նք են ոչ բարոյական վերապատրաստման տվյալների այլ հնարավոր հետևանքները:

Ավելացնել ցուցակի մեջ