Quantumrun

ΠΙΣΤΩΣΗ ΕΙΚΟΝΑΣ:

iStock

Προβληματικά δεδομένα εκπαίδευσης: Όταν η τεχνητή νοημοσύνη διδάσκεται μεροληπτικά δεδομένα

Τα συστήματα τεχνητής νοημοσύνης μερικές φορές εισάγονται με υποκειμενικά δεδομένα που μπορούν να επηρεάσουν τον τρόπο δράσης και λήψης αποφάσεων.

Συγγραφέας:
όνομα συγγραφέα
Quantumrun Foresight
Οκτώβριος 14, 2022

Περίληψη Insight

Είμαστε αυτό που μαθαίνουμε και εσωτερικεύουμε. αυτό το ρητό ισχύει και για την τεχνητή νοημοσύνη (AI). Τα μοντέλα μηχανικής μάθησης (ML) που τροφοδοτούνται με ελλιπή, μεροληπτικά και ανήθικα δεδομένα θα λάβουν τελικά προβληματικές αποφάσεις και προτάσεις. Αυτοί οι ισχυροί αλγόριθμοι μπορεί στη συνέχεια να επηρεάσουν την ηθική και τις αντιλήψεις των χρηστών, εάν οι ερευνητές δεν είναι προσεκτικοί.

Προβληματικό πλαίσιο δεδομένων εκπαίδευσης

Από τη δεκαετία του 2010, οι ερευνητικές ομάδες ελέγχονται εξονυχιστικά για χρήση συνόλων δεδομένων εκπαίδευσης με ακατάλληλο περιεχόμενο ή συλλέγονται με ανήθικο τρόπο. Για παράδειγμα, το 2016, η βάση δεδομένων MS-Celeb-1M της Microsoft περιελάμβανε 10 εκατομμύρια εικόνες 100,000 διαφορετικών διασημοτήτων. Ωστόσο, μετά από περαιτέρω έλεγχο, οι ανταποκριτές ανακάλυψαν ότι πολλές φωτογραφίες ήταν απλών ανθρώπων που τραβήχτηκαν από διάφορες ιστοσελίδες χωρίς τη συγκατάθεση ή τη γνώση του ιδιοκτήτη.

Παρά αυτή τη συνειδητοποίηση, το σύνολο δεδομένων συνέχισε να χρησιμοποιείται από μεγάλες εταιρείες όπως το Facebook και η SenseTime, μια κινεζική εταιρεία αναγνώρισης προσώπου με συνδέσμους με την κρατική αστυνομία. Ομοίως, ένα σύνολο δεδομένων που περιείχε φωτογραφίες ανθρώπων που περπατούσαν στην πανεπιστημιούπολη του Πανεπιστημίου Duke (DukeMTMC) δεν συγκέντρωσε επίσης τη συγκατάθεση. Τελικά, αφαιρέθηκαν και τα δύο σύνολα δεδομένων.

Για να επισημάνουν τις καταστροφικές συνέπειες των προβληματικών δεδομένων εκπαίδευσης, ερευνητές στο Τεχνολογικό Ινστιτούτο της Μασαχουσέτης (MIT) δημιούργησαν μια τεχνητή νοημοσύνη που ονομάζεται Norman στην οποία δίδαξαν να εκτελεί υπότιτλους εικόνων από ένα subreddit που τόνιζε την γραφική βία. Στη συνέχεια, η ομάδα τοποθέτησε τον Norman απέναντι σε ένα νευρωνικό δίκτυο που εκπαιδεύτηκε χρησιμοποιώντας συμβατικά δεδομένα. Οι ερευνητές προμήθευσαν και τα δύο συστήματα με κηλίδες μελανιού Rorschach και ζήτησαν από τους AI να περιγράψουν αυτό που είδαν. Τα αποτελέσματα ήταν εκπληκτικά: εκεί που το τυπικό νευρωνικό δίκτυο είδε «μια ασπρόμαυρη φωτογραφία ενός γαντιού του μπέιζμπολ», ο Norman παρατήρησε «έναν άνδρα που δολοφονήθηκε από πολυβόλο στο φως της ημέρας». Το πείραμα έδειξε ότι το AI δεν είναι αυτόματα προκατειλημμένο, αλλά αυτές οι μέθοδοι εισαγωγής δεδομένων και τα κίνητρα των δημιουργών τους μπορούν να επηρεάσουν σημαντικά τη συμπεριφορά ενός AI.

Αποδιοργανωτικός αντίκτυπος

Το 2021, ο ερευνητικός οργανισμός Allen Institute for AI δημιούργησε το Ask Delphi, ένα λογισμικό ML που παράγει αλγοριθμικά απαντήσεις για απαντήσεις σε οποιαδήποτε ηθική ερώτηση. Οι ερευνητές πίσω από το έργο δήλωσαν ότι η τεχνητή νοημοσύνη γίνεται σταδιακά πιο ισχυρή και οικεία, επομένως οι επιστήμονες πρέπει να διδάξουν την ηθική αυτών των συστημάτων ML. Το μοντέλο Unicorn ML είναι το θεμέλιο των Δελφών. Διατυπώθηκε για να εκτελεί συλλογισμό «κοινής λογικής», όπως η επιλογή του πιο πιθανού τέλους σε μια συμβολοσειρά κειμένου.

Επιπλέον, οι ερευνητές χρησιμοποίησαν την «Commonsense Norm Bank». Αυτή η τράπεζα αποτελείται από 1.7 εκατομμύρια παραδείγματα ηθικών αξιολογήσεων ανθρώπων από μέρη όπως το Reddit. Ως αποτέλεσμα, η παραγωγή των Δελφών ήταν μια μικτή τσάντα. Οι Δελφοί απάντησαν εύλογα σε ορισμένες ερωτήσεις (π.χ. ισότητα μεταξύ ανδρών και γυναικών), ενώ, σε ορισμένα θέματα, οι Δελφοί ήταν εντελώς προσβλητικοί (π.χ. η γενοκτονία είναι αποδεκτή εφόσον έκανε τους ανθρώπους χαρούμενους).

Ωστόσο, το Delphi AI μαθαίνει από τις εμπειρίες του και φαίνεται να ενημερώνει τις απαντήσεις του με βάση τα σχόλια. Ορισμένοι ειδικοί προβληματίζονται από τη δημόσια και ανοιχτή χρήση της έρευνας, θεωρώντας ότι το μοντέλο βρίσκεται σε εξέλιξη και είναι επιρρεπές σε ασταθείς απαντήσεις. Όταν έκανε το ντεμπούτο του το Ask Delphi, ο Mar Hicks, καθηγητής Ιστορίας στο Illinois Tech με ειδίκευση στο φύλο, την εργασία και την ιστορία των υπολογιστών, είπε ότι ήταν αμέλεια των ερευνητών να προσκαλέσουν τους ανθρώπους να το χρησιμοποιήσουν, θεωρώντας ότι οι Δελφοί έδωσε αμέσως εξαιρετικά ανήθικες απαντήσεις και ορισμένες πλήρης ανοησία.

Σε 2023, Rest of World διεξήγαγε μια μελέτη σχετικά με την προκατάληψη σε γεννήτριες εικόνων AI. Χρησιμοποιώντας το Midjourney, οι ερευνητές ανακάλυψαν ότι οι εικόνες που δημιουργούνται επιβεβαιώνουν τα υπάρχοντα στερεότυπα. Επιπλέον, όταν το OpenAI εφάρμοσε φίλτρα στα δεδομένα εκπαίδευσης για το μοντέλο δημιουργίας εικόνων DALL-E 2, ενέτεινε ακούσια προκαταλήψεις που σχετίζονται με το φύλο.

Επιπτώσεις προβληματικών δεδομένων εκπαίδευσης

Οι ευρύτερες επιπτώσεις των προβληματικών δεδομένων εκπαίδευσης μπορεί να περιλαμβάνουν:

Ενισχυμένες προκαταλήψεις σε ερευνητικά έργα, υπηρεσίες και ανάπτυξη προγραμμάτων. Τα προβληματικά δεδομένα κατάρτισης είναι ιδιαίτερα ανησυχητικά εάν χρησιμοποιούνται σε υπηρεσίες επιβολής του νόμου και τραπεζικά ιδρύματα (π.χ. στοχεύουν αρνητικά σε μειονοτικές ομάδες).
Αυξημένες επενδύσεις και ανάπτυξη στην ανάπτυξη και την ποικιλία των δεδομένων κατάρτισης.
Περισσότερες κυβερνήσεις αυξάνουν τους κανονισμούς για να περιορίσουν τον τρόπο με τον οποίο οι εταιρείες αναπτύσσουν, πωλούν και χρησιμοποιούν δεδομένα εκπαίδευσης για διάφορες εμπορικές πρωτοβουλίες.
Περισσότερες επιχειρήσεις δημιουργούν τμήματα δεοντολογίας για να διασφαλίσουν ότι τα έργα που υποστηρίζονται από συστήματα τεχνητής νοημοσύνης ακολουθούν τις ηθικές οδηγίες.
Ενισχυμένος έλεγχος σχετικά με τη χρήση της τεχνητής νοημοσύνης στην υγειονομική περίθαλψη που οδηγεί σε αυστηρότερη διακυβέρνηση δεδομένων, διασφαλίζοντας το απόρρητο των ασθενών και την ηθική εφαρμογή της τεχνητής νοημοσύνης.
Αύξηση της συνεργασίας του δημόσιου και του ιδιωτικού τομέα για την προώθηση της παιδείας τεχνητής νοημοσύνης, εξοπλίζοντας το εργατικό δυναμικό με δεξιότητες για ένα μέλλον που θα κυριαρχεί η τεχνητή νοημοσύνη.
Αύξηση της ζήτησης για εργαλεία διαφάνειας τεχνητής νοημοσύνης, οδηγώντας τις εταιρείες να δίνουν προτεραιότητα στην επεξήγηση στα συστήματα τεχνητής νοημοσύνης για κατανόηση και εμπιστοσύνη από τους καταναλωτές.

Ερωτήσεις προς εξέταση

Πώς μπορούν οι οργανισμοί να αποφύγουν τη χρήση προβληματικών δεδομένων εκπαίδευσης;
Ποιες είναι άλλες πιθανές συνέπειες των ανήθικων δεδομένων εκπαίδευσης;

Πρόσθεσε στη λίστα