Проблематични подаци о обуци: Када се АИ учи пристрасним подацима

КРЕДИТ ЗА СЛИКУ:
Слика кредит
иСтоцк

Проблематични подаци о обуци: Када се АИ учи пристрасним подацима

Проблематични подаци о обуци: Када се АИ учи пристрасним подацима

Текст поднаслова
Системи вештачке интелигенције се понекад упознају са субјективним подацима који могу утицати на то како се понаша и доноси одлуке.
    • Аутор:
    • ime аутора
      Куантумрун Форесигхт
    • Октобар КСНУМКС, КСНУМКС

    Сажетак увида

    Ми смо оно што учимо и интернализујемо; ова изрека важи и за вештачку интелигенцију (АИ). Модели машинског учења (МЛ) храњени непотпуним, пристрасним и неетичким подацима ће на крају донети проблематичне одлуке и предлоге. Ови моћни алгоритми могу да утичу на морал и перцепцију корисника ако истраживачи нису пажљиви.

    Проблематичан контекст података о обуци

    Од 2010-их, истраживачки тимови су под пажњом да користе скупове података за обуку са неприкладним садржајем или су прикупљени неетички. На пример, 2016. године, Мицрософтова база података МС-Целеб-1М укључивала је 10 милиона слика 100,000 различитих познатих личности. Међутим, након даљег прегледа, дописници су открили да су многе фотографије обичних људи извучене са разних веб страница без пристанка или знања власника.

    Упркос овој спознаји, скуп података су наставиле да користе велике компаније као што су Фацебоок и СенсеТиме, кинеска компанија за препознавање лица која има везе са државном полицијом. Слично, скуп података који садржи слике људи који шетају кампусом Универзитета Дуке (ДукеМТМЦ) такође није прикупио сагласност. На крају су оба скупа података уклоњена. 

    Да би истакли штетне ефекте проблематичних података о обуци, истраживачи са Технолошког института у Масачусетсу (МИТ) креирали су вештачку интелигенцију по имену Норман коју су научили да изводи натписе слика са подредита који је наглашавао графичко насиље. Тим је затим поставио Нормана против неуронске мреже обучене коришћењем конвенционалних података. Истраживачи су оба система снабдели Роршаховим мрљама мастила и тражили од вештачке интелигенције да опишу шта су видели. Резултати су били запањујући: тамо где је стандардна неуронска мрежа видела „црно-белу фотографију бејзбол рукавице“, Норман је приметио „човека убијеног митраљезом усред бела дана“. Експеримент је показао да АИ није аутоматски пристрасна, али те методе уноса података и мотиви њихових креатора могу значајно утицати на понашање АИ.

    Ометајући утицај

    Године 2021. истраживачка организација Аллен Институте фор АИ креирала је Аск Делпхи, софтвер за учење учења који алгоритамски генерише одговоре за одговоре на било које етичко питање. Истраживачи који стоје иза пројекта изјавили су да вештачка интелигенција постепено постаје све моћнија и позната, тако да научници треба да подучавају ове МЛ системе етици. Уницорн МЛ модел је основа Делпхи-ја. Формулисан је да спроведе резоновање „здравог разума“, као што је одабир највероватнијег завршетка текстуалног низа. 

    Штавише, истраживачи су користили „Банку норми здравог разума“. Ова банка се састоји од 1.7 милиона примера етичких процена људи са места као што је Реддит. Као резултат тога, Делпхијев резултат је био мешовит. Делпхи је на нека питања одговорио разумно (нпр. једнакост између мушкараца и жена), док је, на неке теме, Делпхи био потпуно увредљив (нпр. геноцид је прихватљив све док је усрећио људе).

    Међутим, Делпхи АИ учи из својих искустава и изгледа да ажурира своје одговоре на основу повратних информација. Неки стручњаци су забринути због јавности и отворене употребе истраживања, с обзиром на то да је модел у току и да је склон погрешним одговорима. Када је Аск Делпхи дебитовао, Мар Хикс, професор историје на Иллиноис Тецх-у специјализован за род, рад и историју рачунарства, рекао је да је било немарно од стране истраживача да позивају људе да га користе, с обзиром на то да је Делпхи одмах дао крајње неетичке одговоре, а неки потпуна бесмислица. 

    2023. године, Остатак света спровео студију о пристрасности у генераторима АИ слике. Користећи Мидјоурнеи, истраживачи су открили да генерисане слике потврђују постојеће стереотипе. Поред тога, када је ОпенАИ применио филтере на податке о обуци за свој модел генерисања слика ДАЛЛ-Е 2, ненамерно је појачао предрасуде везане за пол.

    Импликације проблематичних података о обуци

    Шире импликације проблематичних података о обуци могу укључивати: 

    • Појачане пристрасности у истраживачким пројектима, услугама и развоју програма. Проблематични подаци о обуци су посебно забрињавајући ако се користе у институцијама за спровођење закона и банкарским институцијама (нпр. негативно циљање на мањинске групе).
    • Повећана улагања и развој у раст и асортиман података о обуци. 
    • Све више влада повећава прописе како би ограничиле начин на који корпорације развијају, продају и користе податке о обуци за различите комерцијалне иницијативе.
    • Више предузећа оснива етичка одељења како би се осигурало да пројекти засновани на АИ системима прате етичке смернице.
    • Појачана контрола употребе вештачке интелигенције у здравству доводи до строжег управљања подацима, обезбеђујући приватност пацијената и етичку примену вештачке интелигенције.
    • Повећана сарадња јавног и приватног сектора како би се подстакла АИ писменост, опремајући радну снагу вештинама за будућност у којој доминира вештачка интелигенција.
    • Повећање потражње за алатима за транспарентност АИ, што наводи компаније да дају приоритет објашњивости у АИ системима ради разумевања и поверења потрошача.

    Питања која треба размотрити

    • Како организације могу избјећи кориштење проблематичних података о обуци?
    • Које су друге потенцијалне последице неетичких података о обуци?