Problematyczne dane treningowe: kiedy AI uczy się danych stronniczych

KREDYT WZROKU:
Image credit
iStock

Problematyczne dane treningowe: kiedy AI uczy się danych stronniczych

Problematyczne dane treningowe: kiedy AI uczy się danych stronniczych

Tekst podtytułu
Systemy sztucznej inteligencji są czasami wprowadzane z subiektywnymi danymi, które mogą wpływać na sposób jej działania i podejmowania decyzji.
    • Autor:
    • nazwisko autora
      Foresight Quantumrun
    • 14 października 2022 r.

    Podsumowanie spostrzeżeń

    Jesteśmy tym, czego się uczymy i przyswajamy; to powiedzenie dotyczy również sztucznej inteligencji (AI). Modele uczenia maszynowego (ML) zasilane niekompletnymi, stronniczymi i nieetycznymi danymi ostatecznie będą podejmować problematyczne decyzje i sugestie. Te potężne algorytmy mogą następnie wpływać na moralność i postrzeganie użytkowników, jeśli badacze nie będą ostrożni.

    Problematyczny kontekst danych treningowych

    Od 2010 roku zespoły badawcze są poddawane kontroli pod kątem wykorzystywania zbiorów danych szkoleniowych zawierających nieodpowiednią treść lub zbieranych w sposób nieetyczny. Na przykład w 2016 r. baza danych MS-Celeb-1M firmy Microsoft zawierała 10 milionów zdjęć 100,000 XNUMX różnych gwiazd. Jednak po dalszej inspekcji korespondenci odkryli, że wiele zdjęć przedstawiało zwykłych ludzi, pobranych z różnych stron internetowych bez zgody i wiedzy właściciela.

    Pomimo tej świadomości zbiór danych nadal był wykorzystywany przez duże firmy, takie jak Facebook i SenseTime, chińska firma zajmująca się rozpoznawaniem twarzy, powiązana z policją stanową. Podobnie zbiór danych zawierający zdjęcia osób spacerujących po kampusie Uniwersytetu Duke (DukeMTMC) również nie zebrał zgody. Ostatecznie oba zbiory danych zostały usunięte. 

    Aby podkreślić szkodliwe skutki problematycznych danych treningowych, naukowcy z Massachusetts Institute of Technology (MIT) stworzyli sztuczną inteligencję o nazwie Norman, którą nauczyli wykonywać podpisy obrazów z subreddita, który podkreślał graficzną przemoc. Następnie zespół umieścił Normana w sieci neuronowej trenowanej przy użyciu konwencjonalnych danych. Naukowcy zaopatrzyli oba systemy w plamy atramentowe Rorschacha i poprosili AI o opisanie tego, co widzieli. Wyniki były oszałamiające: podczas gdy standardowa sieć neuronowa widziała „czarno-białe zdjęcie rękawicy baseballowej”, Norman obserwował „mężczyznę zamordowanego przez karabin maszynowy w biały dzień”. Eksperyment wykazał, że sztuczna inteligencja nie jest automatycznie stronnicza, ale te metody wprowadzania danych i motywy ich twórców mogą znacząco wpłynąć na zachowanie sztucznej inteligencji.

    Zakłócający wpływ

    W 2021 roku organizacja badawcza Allen Institute for AI stworzyła Ask Delphi, oprogramowanie ML, które algorytmicznie generuje odpowiedzi na wszelkie pytania etyczne. Naukowcy realizujący projekt stwierdzili, że sztuczna inteligencja stopniowo staje się potężniejsza i bardziej znana, dlatego naukowcy muszą uczyć systemów uczenia maszynowego etyki. Model Unicorn ML jest podstawą Delphi. Został on sformułowany w celu przeprowadzenia rozumowania „zdrowego rozsądku”, takiego jak wybranie najbardziej prawdopodobnego zakończenia ciągu tekstowego. 

    Ponadto badacze skorzystali z „Banku norm zdroworozsądkowych”. W tym banku znajduje się 1.7 miliona przykładów ocen etycznych ludzi z miejsc takich jak Reddit. W rezultacie wyniki Delphi były mieszane. Delphi odpowiedział rozsądnie na niektóre pytania (np. równość mężczyzn i kobiet), podczas gdy w niektórych tematach Delphi był wręcz obraźliwy (np. ludobójstwo jest dopuszczalne, o ile uszczęśliwia ludzi).

    Jednakże sztuczna inteligencja Delphi uczy się na swoich doświadczeniach i wydaje się, że aktualizuje swoje odpowiedzi w oparciu o opinie. Niektórych ekspertów niepokoi publiczne i otwarte wykorzystanie badania, biorąc pod uwagę, że model jest w toku i istnieje ryzyko udzielania błędnych odpowiedzi. Kiedy zadebiutowała aplikacja Ask Delphi, Mar Hicks, profesor historii w Illinois Tech specjalizująca się w problematyce płci, pracy i historii informatyki, stwierdziła, że ​​zapraszanie ludzi do korzystania z niej przez badaczy było zaniedbaniem, biorąc pod uwagę, że Delphi natychmiast udzieliło wyjątkowo nieetycznych odpowiedzi, a niektórzy kompletna bzdura. 

    W 2023, Reszta świata przeprowadził badanie dotyczące stronniczości w generatorach obrazów AI. Korzystając z Midjourney, badacze odkryli, że wygenerowane obrazy potwierdzają istniejące stereotypy. Ponadto, gdy OpenAI zastosowało filtry do danych szkoleniowych dla swojego modelu generowania obrazu DALL-E 2, w sposób niezamierzony nasiliło uprzedzenia związane z płcią.

    Implikacje problematycznych danych treningowych

    Szersze implikacje problematycznych danych treningowych mogą obejmować: 

    • Wzmocnione uprzedzenia w projektach badawczych, usługach i rozwoju programów. Problematyczne dane szkoleniowe są szczególnie niepokojące, jeśli są wykorzystywane przez organy ścigania i instytucje bankowe (np. niekorzystnie ukierunkowane na grupy mniejszościowe).
    • Zwiększone inwestycje i rozwój w zakresie wzrostu i asortymentu danych szkoleniowych. 
    • Coraz więcej rządów zaostrza przepisy ograniczające sposób, w jaki korporacje opracowują, sprzedają i wykorzystują dane szkoleniowe w różnych inicjatywach komercyjnych.
    • Więcej firm tworzy działy etyki, aby zapewnić, że projekty oparte na systemach AI są zgodne z wytycznymi etycznymi.
    • Wzmocniona kontrola stosowania sztucznej inteligencji w opiece zdrowotnej prowadząca do bardziej rygorystycznego zarządzania danymi, zapewnienia prywatności pacjentów i etycznego stosowania sztucznej inteligencji.
    • Zwiększona współpraca sektora publicznego i prywatnego w celu wspierania umiejętności korzystania z sztucznej inteligencji i wyposażania pracowników w umiejętności potrzebne w przyszłości zdominowanej przez sztuczną inteligencję.
    • Wzrost zapotrzebowania na narzędzia przejrzystości AI, co skłoniło firmy do priorytetowego traktowania wyjaśnialności systemów AI w celu zapewnienia zrozumienia i zaufania konsumentów.

    Pytania do rozważenia

    • W jaki sposób organizacje mogą unikać używania problematycznych danych szkoleniowych?
    • Jakie są inne potencjalne konsekwencje nieetycznych danych szkoleniowych?