Quantumrun

КРЭДЫТ ВЫЯВЫ:

Istock

Праблемныя навучальныя даныя: калі штучнаму інтэлекту выкладаюць неаб'ектыўныя даныя

Сістэмы штучнага інтэлекту часам уводзяцца з суб'ектыўнымі дадзенымі, якія могуць паўплываць на тое, як яны дзейнічаюць і прымаюць рашэнні.

аўтар:
імя аўтара
Quantumrun Foresight
Кастрычнік 14, 2022

Кароткі агляд

Мы тое, што мы вучымся і інтэрналізаваць; гэта выказванне таксама адносіцца да штучнага інтэлекту (AI). Мадэлі машыннага навучання (ML), насычаныя няпоўнымі, прадузятымі і неэтычнымі дадзенымі, у канчатковым выніку прывядуць да праблемных рашэнняў і прапаноў. Гэтыя магутныя алгарытмы могуць паўплываць на мараль і ўспрыманне карыстальнікаў, калі даследчыкі не будуць асцярожныя.

Кантэкст даных праблемнага навучання

Пачынаючы з 2010-х гадоў, даследчыя групы падвяргаліся пільнай праверцы на прадмет выкарыстання навучальных набораў даных з непрыдатным зместам або сабраных неэтычна. Напрыклад, у 2016 годзе база дадзеных Microsoft MS-Celeb-1M уключала 10 мільёнаў выяваў 100,000 XNUMX розных знакамітасцяў. Аднак пры далейшай праверцы карэспандэнты выявілі, што многія фатаграфіі былі звычайнымі людзьмі, выцягнутымі з розных сайтаў без згоды або ведама ўладальніка.

Нягледзячы на гэта ўсведамленне, набор даных працягваў выкарыстоўвацца такімі буйнымі кампаніямі, як Facebook і SenseTime, кітайская кампанія па распазнаванні твараў, якая мае сувязі з дзяржаўнай паліцыяй. Падобным чынам набор даных, які змяшчае фатаграфіі людзей, якія ідуць па кампусе Універсітэта Дзюка (DukeMTMC), таксама не атрымаў згоды. У рэшце рэшт, абодва наборы дадзеных былі выдалены.

Каб падкрэсліць шкодныя наступствы праблемных навучальных даных, даследчыкі з Масачусецкага тэхналагічнага інстытута (MIT) стварылі штучны інтэлект пад назвай Norman, які яны навучылі рабіць субтытры да малюнкаў з субрэдыта, які падкрэслівае графічны гвалт. Затым каманда паставіла Нормана супраць нейронавай сеткі, навучанай з выкарыстаннем звычайных дадзеных. Даследчыкі забяспечылі абедзве сістэмы чарнільнымі плямамі Роршаха і папрасілі штучны інтэлект апісаць убачанае. Вынікі былі ашаламляльнымі: там, дзе стандартная нейронная сетка ўбачыла «чорна-белае фота бейсбольнай пальчаткі», Норман назіраў «чалавека, забітага з аўтамата сярод белага дня». Эксперымент прадэманстраваў, што ШІ не з'яўляецца аўтаматычна прадузятым, але гэтыя метады ўводу даных і матывы іх стваральнікаў могуць істотна паўплываць на паводзіны ШІ.

Разбуральнае ўздзеянне

У 2021 годзе даследчая арганізацыя Allen Institute for AI стварыла Ask Delphi, праграмнае забеспячэнне для ML, якое алгарытмічна генеруе адказы на любыя этычныя пытанні. Даследчыкі, якія стаяць за праектам, заявілі, што штучны інтэлект паступова становіцца ўсё больш магутным і звыклым, таму навукоўцы павінны навучыць гэтыя сістэмы ML этыцы. Мадэль Unicorn ML з'яўляецца асновай Delphi. Ён быў сфармуляваны для правядзення разваг "здаровага сэнсу", такіх як выбар найбольш верагоднага заканчэння тэкставага радка.

Акрамя таго, даследчыкі выкарыстоўвалі «Банк нормаў разумнага сэнсу». Гэты банк складаецца з 1.7 мільёна прыкладаў этычных ацэнак людзей з такіх месцаў, як Reddit. У выніку выхад Delphi быў неадназначным. Delphi адказаў на некаторыя пытанні разумна (напрыклад, роўнасць паміж мужчынамі і жанчынамі), у той час як па некаторых тэмах Delphi быў проста абразлівым (напрыклад, генацыд прымальны, калі ён рабіў людзей шчаслівымі).

Тым не менш, Delphi AI вучыцца на сваім вопыце і, здаецца, абнаўляе свае адказы на аснове зваротнай сувязі. Некаторыя эксперты занепакоеныя публічным і адкрытым выкарыстаннем даследавання, улічваючы, што мадэль знаходзіцца ў стадыі распрацоўкі і можа даць памылковыя адказы. Калі Ask Delphi дэбютаваў, Мар Хікс, прафесар гісторыі Ілінойскага тэхналагічнага інстытута, які спецыялізуецца на гендэры, працы і гісторыі вылічальнай тэхнікі, сказаў, што з боку даследчыкаў было нядбайна запрашаць людзей выкарыстоўваць яго, лічачы, што Delphi адразу дала вельмі неэтычныя адказы і некаторыя поўнае глупства.

У 2023, Астатняй свет правялі даследаванне зрушэння ў генератары малюнкаў AI. Выкарыстоўваючы Midjourney, даследчыкі выявілі, што створаныя выявы пацвярджаюць існуючыя стэрэатыпы. Акрамя таго, калі OpenAI ужыў фільтры да навучальных даных для сваёй мадэлі генерацыі малюнкаў DALL-E 2, ён ненаўмысна ўзмацніў прадузятасці, звязаныя з гендэрам.

Наступствы праблемных дадзеных навучання

Больш шырокія наступствы праблемных даных навучання могуць уключаць:

Узмоцненыя прадузятасці ў даследчых праектах, паслугах і распрацоўцы праграм. Праблемныя звесткі аб навучанні выклікаюць асаблівую заклапочанасць, калі яны выкарыстоўваюцца ў праваахоўных органах і банкаўскіх установах (напрыклад, негатыўнае ўздзеянне на групы меншасцей).
Павелічэнне інвестыцый і развіццё ў рост і асартымент навучальных дадзеных.
Больш урадаў узмацняе правілы, каб абмежаваць тое, як карпарацыі распрацоўваюць, прадаюць і выкарыстоўваюць навучальныя даныя для розных камерцыйных ініцыятыў.
Усё больш кампаній ствараюць аддзелы па этыцы, каб гарантаваць, што праекты, заснаваныя на сістэмах штучнага інтэлекту, адпавядаюць этычным прынцыпам.
Узмацненне кантролю за выкарыстаннем штучнага інтэлекту ў ахове здароўя вядзе да больш строгага кіравання дадзенымі, забеспячэння прыватнасці пацыентаў і этычнага прымянення штучнага інтэлекту.
Пашырэнне супрацоўніцтва дзяржаўнага і прыватнага сектараў для павышэння пісьменнасці AI, аснашчэння працоўнай сілы навыкамі для будучыні, дзе дамінуе AI.
Рост попыту на інструменты празрыстасці штучнага інтэлекту прымушае кампаніі аддаваць перавагу тлумачальнасці ў сістэмах штучнага інтэлекту для разумення і даверу спажыўцоў.