Γλώσσα Vokenization ai μπορεί να δει

ΠΙΣΤΩΣΗ ΕΙΚΟΝΑΣ:

iStock

Vokenization: Γλώσσα που μπορεί να δει το AI

Με τις εικόνες να ενσωματώνονται πλέον στην εκπαίδευση συστημάτων τεχνητής νοημοσύνης (AI), τα ρομπότ ενδέχεται σύντομα να μπορούν να «βλέπουν» εντολές.

Συγγραφέας:
όνομα συγγραφέα
Quantumrun Foresight
9 Μαΐου 2023

Η επεξεργασία φυσικής γλώσσας (NLP) έχει επιτρέψει στα συστήματα τεχνητής νοημοσύνης (AI) να μαθαίνουν την ανθρώπινη ομιλία κατανοώντας τις λέξεις και ταιριάζουν το πλαίσιο με το συναίσθημα. Το μόνο μειονέκτημα είναι ότι αυτά τα συστήματα NLP βασίζονται αποκλειστικά σε κείμενο. Το Vokenization πρόκειται να τα αλλάξει όλα αυτά.

Πλαίσιο φωνοποίησης

Δύο προγράμματα μηχανικής εκμάθησης (ML) που βασίζονται σε κείμενο χρησιμοποιούνται συχνά για την εκπαίδευση της τεχνητής νοημοσύνης στην επεξεργασία και κατανόηση της ανθρώπινης γλώσσας: το Generative Pre-trained Transformer 3 (GPT-3) του OpenAI και το BERT της Google (Αμφίδρομες αναπαραστάσεις κωδικοποιητή από το Transformers). Στην ορολογία του AI, οι λέξεις που χρησιμοποιούνται στην εκπαίδευση NLP ονομάζονται tokens. Ερευνητές από το Πανεπιστήμιο της Βόρειας Καρολίνας (UNC) παρατήρησαν ότι τα προγράμματα κατάρτισης που βασίζονται σε κείμενο είναι περιορισμένα επειδή δεν μπορούν να «βλέπουν», που σημαίνει ότι δεν μπορούν να συλλάβουν οπτικές πληροφορίες και επικοινωνία.

Για παράδειγμα, αν κάποιος ρωτήσει το GPT-3 ποιο είναι το χρώμα του προβάτου, το σύστημα θα απαντήσει συχνά "μαύρο" ακόμα κι αν είναι καθαρά λευκό. Αυτή η απάντηση οφείλεται στο ότι το σύστημα που βασίζεται σε κείμενο θα το συσχετίσει με τον όρο "μαύρο πρόβατο" αντί να προσδιορίσει το σωστό χρώμα. Με την ενσωμάτωση γραφικών με διακριτικά (voken), τα συστήματα τεχνητής νοημοσύνης μπορούν να έχουν μια ολιστική κατανόηση των όρων. Το Vokenization ενσωματώνει vokens σε αυτοεποπτευόμενα συστήματα NLP, επιτρέποντάς τους να αναπτύξουν «κοινή λογική».

Η ενσωμάτωση μοντέλων γλώσσας και υπολογιστικής όρασης δεν είναι μια νέα ιδέα και είναι ένα ταχέως αναπτυσσόμενο πεδίο στην έρευνα της τεχνητής νοημοσύνης. Ο συνδυασμός αυτών των δύο τύπων τεχνητής νοημοσύνης αξιοποιεί τις ατομικές δυνάμεις τους. Τα γλωσσικά μοντέλα όπως το GPT-3 εκπαιδεύονται μέσω εκμάθησης χωρίς επίβλεψη, η οποία τους επιτρέπει να κλιμακώνονται εύκολα. Αντίθετα, τα μοντέλα εικόνας όπως τα συστήματα αναγνώρισης αντικειμένων μπορούν να μάθουν άμεσα από την πραγματικότητα και δεν βασίζονται στην αφαίρεση που παρέχει το κείμενο. Για παράδειγμα, τα μοντέλα εικόνας μπορούν να αναγνωρίσουν ότι ένα πρόβατο είναι λευκό κοιτάζοντας μια εικόνα.

Αποδιοργανωτικός αντίκτυπος

Η διαδικασία του vokenization είναι αρκετά απλή. Τα Voken δημιουργούνται με την ανάθεση αντίστοιχων ή σχετικών εικόνων σε διακριτικά γλώσσας. Στη συνέχεια, οι αλγόριθμοι (vokenizer) σχεδιάζονται για να δημιουργούν vokens μέσω μάθησης χωρίς επίβλεψη (χωρίς ρητές παραμέτρους/κανόνες). Η κοινή λογική τεχνητή νοημοσύνη που εκπαιδεύεται μέσω του vokenization μπορεί να επικοινωνεί και να λύνει προβλήματα καλύτερα, επειδή έχουν μια πιο εις βάθος κατανόηση του πλαισίου. Αυτή η προσέγγιση είναι μοναδική γιατί όχι μόνο προβλέπει διακριτικά γλώσσας, αλλά προβλέπει επίσης διακριτικά εικόνας, κάτι που τα παραδοσιακά μοντέλα BERT δεν μπορούν να κάνουν.

Για παράδειγμα, οι ρομποτικοί βοηθοί θα μπορούν να αναγνωρίζουν εικόνες και να περιηγούνται καλύτερα στις διαδικασίες, επειδή μπορούν να «βλέπουν» τι απαιτείται από αυτούς. Τα συστήματα τεχνητής νοημοσύνης που έχουν εκπαιδευτεί να γράφουν περιεχόμενο θα μπορούν να δημιουργούν άρθρα που ακούγονται πιο ανθρώπινα, με ιδέες που ρέουν καλύτερα, αντί για ασύνδετες προτάσεις. Λαμβάνοντας υπόψη την ευρεία εμβέλεια των εφαρμογών NLP, το vokenization μπορεί να οδηγήσει σε chatbots με καλύτερη απόδοση, εικονικούς βοηθούς, διαδικτυακές ιατρικές διαγνώσεις, ψηφιακούς μεταφραστές και πολλά άλλα.

Επιπλέον, ο συνδυασμός όρασης και εκμάθησης γλώσσας κερδίζει δημοτικότητα στις εφαρμογές ιατρικής απεικόνισης, ειδικά για την αυτοματοποιημένη διάγνωση ιατρικής εικόνας. Για παράδειγμα, ορισμένοι ερευνητές πειραματίζονται με αυτήν την προσέγγιση σε εικόνες ακτινογραφίας με συνοδευτικές περιγραφές κειμένου, όπου η σημασιολογική τμηματοποίηση μπορεί να είναι χρονοβόρα. Η τεχνική vokenization θα μπορούσε να βελτιώσει αυτές τις αναπαραστάσεις και να βελτιώσει την αυτοματοποιημένη ιατρική απεικόνιση χρησιμοποιώντας τις πληροφορίες κειμένου.

Εφαρμογές για vokenization

Ορισμένες εφαρμογές για vokenization μπορεί να περιλαμβάνουν:

Διαισθητικά chatbots που μπορούν να επεξεργαστούν στιγμιότυπα οθόνης, εικόνες και περιεχόμενο ιστότοπου. Τα chatbot υποστήριξης πελατών, ειδικότερα, ενδέχεται να είναι σε θέση να προτείνουν με ακρίβεια προϊόντα και υπηρεσίες.
Ψηφιακές μεταφραστές που μπορούν να επεξεργάζονται εικόνες και βίντεο και να παρέχουν μια ακριβή μετάφραση που λαμβάνει υπόψη το πολιτισμικό και περιστασιακό πλαίσιο.
Οι σαρωτές bot μέσων κοινωνικής δικτύωσης μπορούν να πραγματοποιήσουν μια πιο ολιστική ανάλυση συναισθημάτων συγχωνεύοντας εικόνες, λεζάντες και σχόλια. Αυτή η εφαρμογή μπορεί να είναι χρήσιμη στη συγκράτηση περιεχομένου που απαιτεί την ανάλυση επιβλαβών εικόνων.
Αύξηση ευκαιριών απασχόλησης για μηχανικούς μηχανικής μάθησης υπολογιστών και NLP και επιστήμονες δεδομένων.
Οι νεοσύστατες εταιρείες βασίζονται σε αυτά τα συστήματα τεχνητής νοημοσύνης για να τα εμπορευματοποιήσουν ή να παρέχουν προσαρμοσμένες λύσεις για επιχειρήσεις.

Ερωτήσεις για σχολιασμό

Πώς αλλιώς πιστεύετε ότι το vokenization θα αλλάξει τον τρόπο με τον οποίο αλληλεπιδρούμε με τα ρομπότ;
Πώς μπορεί το vokenization να αλλάξει τον τρόπο με τον οποίο δραστηριοποιούμαστε και αλληλεπιδρούμε με τα gadget μας (έξυπνα τηλέφωνα και έξυπνες συσκευές);

Πρόσθεσε στη λίστα