Проблематични податоци за обука: кога вештачката интелигенција се предава на пристрасни податоци

КРЕДИТ НА СЛИКА:
Слика кредит
iStock

Проблематични податоци за обука: кога вештачката интелигенција се предава на пристрасни податоци

Проблематични податоци за обука: кога вештачката интелигенција се предава на пристрасни податоци

Текст за поднаслов
Системите за вештачка интелигенција понекогаш се воведуваат со субјективни податоци кои можат да влијаат на тоа како дејствува и донесува одлуки.
    • автор:
    • име на авторот
      Quantumrun Foresight
    • Октомври 14, 2022

    Резиме на увид

    Ние сме она што го учиме и интернализираме; оваа наредба важи и за вештачката интелигенција (ВИ). Моделите за машинско учење (ML) хранети со нецелосни, пристрасни и неетички податоци на крајот ќе донесат проблематични одлуки и предлози. Овие моќни алгоритми потоа може да влијаат на моралот и перцепциите на корисниците ако истражувачите не се внимателни.

    Проблематичен контекст на податоци за обука

    Од 2010-тите, истражувачките тимови беа под лупа за користење на збирки на податоци за обука со несоодветна содржина или собрани неетички. На пример, во 2016 година, базата на податоци на Мајкрософт MS-Celeb-1M вклучуваше 10 милиони слики од 100,000 различни познати личности. Меѓутоа, при понатамошна проверка, дописниците открија дека многу фотографии се од обични луѓе извадени од различни веб-страници без согласност или знаење на сопственикот.

    И покрај ова сознание, базата на податоци продолжи да се користи од големи компании како Facebook и SenseTime, кинеска компанија за препознавање лица со врски со државната полиција. Слично на тоа, базата на податоци што содржи слики од луѓе кои шетаат во кампусот на Универзитетот Дјук (DukeMTMC) не собра согласност ниту. На крајот, двете збирки на податоци беа отстранети. 

    За да ги нагласат штетните ефекти од проблематичните податоци за обуката, истражувачите од Технолошкиот институт во Масачусетс (МИТ) создадоа вештачка интелигенција наречена Норман на која научија да изведува титлови на слики од подредит што го истакнува графичкото насилство. Тимот потоа го постави Норман против невронска мрежа обучена со користење на конвенционални податоци. Истражувачите ги дадоа двата системи со Rorschach дамки со мастило и побараа од вештачката интелигенција да опишат што виделе. Резултатите беа зачудувачки: онаму каде што стандардната невронска мрежа виде „црно-бела фотографија од бејзбол ракавица“, Норман забележа „човек убиен со митралез среде бел ден“. Експериментот покажа дека вештачката интелигенција не е автоматски пристрасна, но тие методи за внесување податоци и мотивите на нивните создавачи можат значително да влијаат на однесувањето на вештачката интелигенција.

    Нарушувачко влијание

    Во 2021 година, истражувачката организација Ален Институт за вештачка интелигенција го создаде Ask Delphi, ML софтвер кој алгоритамски генерира одговори за одговори на кое било етичко прашање. Истражувачите зад проектот изјавија дека вештачката интелигенција постепено станува помоќна и попозната, така што научниците треба да ги научат овие системи за ML на етика. Моделот Unicorn ML е основата на Delphi. Тој беше формулиран за да спроведе „здрав разум“ расудување, како што е изборот на најверојатниот крај на текстуалната низа. 

    Понатаму, истражувачите користеа 'Commonsense Norm Bank'. Оваа банка се состои од 1.7 милиони примери на етички проценки на луѓето од места како Редит. Како резултат на тоа, излезот на Делфи беше мешана вреќа. Делфи одговори на некои прашања разумно (на пример, еднаквост меѓу мажите и жените), додека, за некои теми, Делфи беше целосно навредлив (на пр., геноцидот е прифатлив се додека ги прави луѓето среќни).

    Сепак, Delphi AI учи од своите искуства и се чини дека ги ажурира своите одговори врз основа на повратни информации. Некои експерти се вознемирени од јавната и отворена употреба на истражувањето, имајќи предвид дека моделот е во тек и е склон кон непредвидливи одговори. Кога дебитираше Прашај Делфи, Мар Хикс, професор по историја на Илиноис Техника, специјализиран за пол, труд и историја на компјутери, рече дека истражувачите биле невнимателни да ги поканат луѓето да го користат, со оглед на тоа што Делфи веднаш дал крајно неетички одговори и некои целосна глупост. 

    Во 2023, Остатокот од светот спроведе студија за пристрасност кај генераторите на слики со вештачка интелигенција. Користејќи го Midjourney, истражувачите открија дека генерираните слики ги потврдуваат постоечките стереотипи. Дополнително, кога OpenAI примени филтри на податоците за обука за неговиот модел за генерирање слики DALL-E 2, ненамерно ги засили предрасудите поврзани со полот.

    Импликации на проблематични податоци за обука

    Пошироките импликации на проблематичните податоци за обука може да вклучуваат: 

    • Засилени предрасуди во истражувачки проекти, услуги и развој на програми. Проблематичните податоци за обука се особено загрижувачки ако се користат во органите за спроведување на законот и банкарските институции (на пр., негативно насочени кон малцинските групи).
    • Зголемени инвестиции и развој во растот и асортиманот на податоци за обука. 
    • Повеќе влади ги зголемуваат регулативите за да го ограничат начинот на кој корпорациите развиваат, продаваат и користат податоци за обука за различни комерцијални иницијативи.
    • Повеќе бизниси формираат одделенија за етика за да се осигураат дека проектите напојувани со системи за вештачка интелигенција ги следат етичките упатства.
    • Засилена контрола на употребата на вештачката интелигенција во здравството што води до построго управување со податоците, обезбедувајќи приватност на пациентите и етичка примена на вештачката интелигенција.
    • Зголемена соработка на јавниот и приватниот сектор за поттикнување на писменоста на вештачката интелигенција, опремување на работната сила со вештини за иднина во која доминира вештачката интелигенција.
    • Зголемување на побарувачката за алатки за транспарентност на вештачката интелигенција, што ги води компаниите да дадат приоритет на објаснувањето во системите за вештачка интелигенција за разбирање и доверба од потрошувачите.

    Прашања што треба да се разгледаат

    • Како може организациите да избегнат користење на проблематични податоци за обука?
    • Кои се другите потенцијални последици од неетичките податоци за обука?