Quantumrun

КРЕДИТ ЗА ИЗОБРАЖЕНИЕ:

iStock

Проблемни данни за обучение: Когато AI се преподава на предубедени данни

Системите с изкуствен интелект понякога се въвеждат със субективни данни, които могат да повлияят на това как действа и взема решения.

Автор:
име Автор
Quantumrun Foresight
Октомври 14, 2022

Резюме на прозрението

Ние сме това, което научаваме и интернализираме; това изречение се отнася и за изкуствения интелект (AI). Моделите на машинно обучение (ML), захранвани с непълни, пристрастни и неетични данни, в крайна сметка ще направят проблематични решения и предложения. Тези мощни алгоритми могат след това да повлияят на морала и възприятията на потребителите, ако изследователите не са внимателни.

Проблемен контекст на данни за обучение

От 2010 г. на миналия век изследователските екипи са подложени на щателна проверка за използване на набори от данни за обучение с неподходящо съдържание или събрани неетично. Например през 2016 г. базата данни MS-Celeb-1M на Microsoft включваше 10 милиона изображения на 100,000 XNUMX различни знаменитости. При по-нататъшна проверка обаче кореспондентите откриха, че много снимки са на обикновени хора, изтеглени от различни уебсайтове без съгласието или знанието на собственика.

Въпреки това осъзнаване, наборът от данни продължи да се използва от големи компании като Facebook и SenseTime, китайска компания за разпознаване на лица с връзки към държавната полиция. По същия начин набор от данни, съдържащ снимки на хора, които се разхождат в кампуса на университета Дюк (DukeMTMC), също не е събрал съгласие. В крайна сметка и двата набора от данни бяха премахнати.

За да подчертаят вредните ефекти от проблемните данни за обучение, изследователи от Масачузетския технологичен институт (MIT) създадоха AI, наречен Norman, който научиха да изпълнява надписи на изображения от subreddit, който подчертава графично насилие. След това екипът постави Norman срещу невронна мрежа, обучена с помощта на конвенционални данни. Изследователите снабдиха и двете системи с мастилени петна на Роршах и помолиха ИИ да опишат какво са видели. Резултатите бяха зашеметяващи: там, където стандартната невронна мрежа видя „черно-бяла снимка на бейзболна ръкавица“, Норман наблюдава „човек, убит с картечница посред бял ден“. Експериментът показа, че AI не е автоматично предубеден, но тези методи за въвеждане на данни и мотивите на техните създатели могат значително да повлияят на поведението на AI.

Разрушително въздействие

През 2021 г. изследователската организация Allen Institute for AI създаде Ask Delphi, софтуер за машинно обучение, който алгоритмично генерира отговори за отговори на всеки етичен въпрос. Изследователите зад проекта заявиха, че AI постепенно става все по-мощен и познат, така че учените трябва да учат тези ML системи на етика. Моделът Unicorn ML е в основата на Delphi. Той е формулиран за извършване на разсъждения на „здравия разум“, като например избор на най-вероятния край на текстов низ.

Освен това изследователите са използвали „Банка за норми на здравия разум“. Тази банка се състои от 1.7 милиона примера за етични оценки на хора от места като Reddit. В резултат на това резултатите от Delphi бяха смесени. Delphi отговори разумно на някои въпроси (напр. равенството между мъжете и жените), докато по някои теми Delphi беше направо обиден (напр. геноцидът е приемлив, стига да прави хората щастливи).

Въпреки това, Delphi AI се учи от своя опит и изглежда актуализира своите отговори въз основа на обратна връзка. Някои експерти са обезпокоени от публичното и открито използване на изследването, като се има предвид, че моделът е в процес на разработка и е склонен към нестабилни отговори. Когато Ask Delphi дебютира, Мар Хикс, професор по история в Illinois Tech, специализиран в пол, труд и история на компютрите, каза, че е било небрежно от страна на изследователите да поканят хората да го използват, като се има предвид, че Delphi веднага предостави изключително неетични отговори и някои пълни глупости.

В 2023, Останалия свят проведе проучване за пристрастия в генераторите на изображения с изкуствен интелект. Използвайки Midjourney, изследователите откриха, че генерираните изображения потвърждават съществуващите стереотипи. В допълнение, когато OpenAI приложи филтри към данните за обучение за своя модел за генериране на изображения DALL-E 2, той неволно засили пристрастията, свързани с пола.

Последици от проблемни данни за обучение

По-широките последици от проблемните данни за обучение могат да включват:

Засилени пристрастия в изследователски проекти, услуги и разработване на програми. Проблемните данни за обучение са особено тревожни, ако се използват в правоприлагащи и банкови институции (напр. неблагоприятно насочени към малцинствени групи).
Повишени инвестиции и развитие в растежа и асортимента от данни за обучение.
Повече правителства увеличават регулациите, за да ограничат начина, по който корпорациите разработват, продават и използват данни за обучение за различни търговски инициативи.
Повече фирми създават отдели по етика, за да гарантират, че проектите, захранвани от AI системи, следват етичните указания.
Засилен контрол върху използването на AI в здравеопазването, което води до по-стриктно управление на данните, гарантиране на поверителността на пациентите и етично приложение на AI.
Повишено сътрудничество между публичния и частния сектор за насърчаване на AI грамотността, снабдяване на работната сила с умения за бъдеще, доминирано от AI.
Нарастването на търсенето на инструменти за прозрачност на AI, кара компаниите да дават приоритет на обяснимостта в системите с AI за разбиране и доверие на потребителите.

Въпроси за разглеждане

Как организациите могат да избегнат използването на проблемни данни за обучение?
Какви са другите потенциални последици от данните за неетично обучение?

Добави към списъка