Vokenizacija: Jezik koji AI može vidjeti

KREDIT ZA SLIKE:
Slika kreditne
Istockphoto

Vokenizacija: Jezik koji AI može vidjeti

Vokenizacija: Jezik koji AI može vidjeti

Tekst podnaslova
Sa slikama koje su sada uključene u obuku sustava umjetne inteligencije (AI), roboti bi uskoro mogli "vidjeti" naredbe.
    • Autor:
    • ime autora
      Quantumrun Foresight
    • Neka 9, 2023

    Obrada prirodnog jezika (NLP) omogućila je sustavima umjetne inteligencije (AI) da nauče ljudski govor razumijevanjem riječi i povezivanjem konteksta s osjećajima. Jedina mana je što su ti NLP sustavi isključivo temeljeni na tekstu. Vokenizacija će sve to promijeniti.

    Kontekst vokenizacije

    Dva programa strojnog učenja temeljena na tekstu (ML) često se koriste za obuku umjetne inteligencije za obradu i razumijevanje ljudskog jezika: OpenAI-jev Generative Pre-trained Transformer 3 (GPT-3) i Googleov BERT (Bidirectional Encoder Representations from Transformers). U AI terminologiji, riječi koje se koriste u NLP treningu nazivaju se tokeni. Istraživači sa Sveučilišta Sjeverne Karoline (UNC) primijetili su da su tekstualni programi obuke ograničeni jer ne mogu "vidjeti", što znači da ne mogu uhvatiti vizualne informacije i komunikaciju. 

    Na primjer, ako netko pita GPT-3 koje je boje ovca, sustav će često odgovoriti "crna", čak i ako je očito bijela. Ovaj odgovor je zato što će sustav koji se temelji na tekstu povezati s izrazom "crna ovca" umjesto da identificira točnu boju. Uključivanjem vizualnih elemenata s tokenima (voken), AI sustavi mogu imati holističko razumijevanje pojmova. Vokenizacija integrira vokene u samonadzirane NLP sustave, omogućujući im da razviju "zdrav razum".

    Integracija jezičnih modela i računalnog vida nije nov koncept i to je polje u istraživanju umjetne inteligencije koje se brzo širi. Kombinacija ove dvije vrste umjetne inteligencije iskorištava njihove pojedinačne prednosti. Jezični modeli poput GPT-3 obučavaju se učenjem bez nadzora, što im omogućuje jednostavno skaliranje. Nasuprot tome, slikovni modeli poput sustava za prepoznavanje objekata mogu izravno učiti iz stvarnosti i ne oslanjaju se na apstrakciju koju pruža tekst. Na primjer, slikovni modeli mogu prepoznati da je ovca bijela gledajući sliku.

    Razarajući učinak

    Proces vokenizacije je prilično jednostavan. Vokeni se stvaraju dodjeljivanjem odgovarajućih ili relevantnih slika jezičnim tokenima. Zatim su algoritmi (vokenizer) dizajnirani za generiranje vokena kroz nenadzirano učenje (bez eksplicitnih parametara/pravila). Zdravorazumska umjetna inteligencija obučena kroz vokenizaciju može bolje komunicirati i rješavati probleme jer ima dublje razumijevanje konteksta. Ovaj je pristup jedinstven jer ne samo da predviđa jezične tokene, već predviđa i slikovne tokene, što je nešto što tradicionalni BERT modeli ne mogu učiniti.

    Na primjer, robotski pomoćnici moći će bolje prepoznavati slike i upravljati procesima jer mogu "vidjeti" što se od njih traži. Sustavi umjetne inteligencije osposobljeni za pisanje sadržaja moći će izraditi članke koji zvuče ljudskije, s idejama koje bolje teku, umjesto nepovezanih rečenica. Uzimajući u obzir širok doseg NLP aplikacija, vokenizacija može dovesti do chatbota s boljom izvedbom, virtualnih asistenata, medicinskih dijagnoza na mreži, digitalnih prevoditelja i više.

    Dodatno, kombinacija vida i učenja jezika postaje sve popularnija u aplikacijama za medicinske slike, posebno za automatiziranu dijagnostiku medicinskih slika. Na primjer, neki istraživači eksperimentiraju s ovim pristupom na radiografskim slikama s popratnim tekstualnim opisima, gdje semantička segmentacija može oduzimati puno vremena. Tehnika vokenizacije mogla bi poboljšati te prikaze i poboljšati automatizirano medicinsko oslikavanje korištenjem tekstualnih informacija.

    Prijave za vokenizaciju

    Neke aplikacije za vokenizaciju mogu uključivati:

    • Intuitivni chatbotovi koji mogu obraditi snimke zaslona, ​​slike i sadržaj web stranice. Osobito chatbotovi korisničke podrške mogu točno preporučiti proizvode i usluge.
    • Digitalni prevoditelji koji mogu obraditi slike i videozapise i pružiti točan prijevod koji uzima u obzir kulturni i situacijski kontekst.
    • Bot skeneri društvenih medija mogu provesti cjelovitiju analizu osjećaja spajanjem slika, naslova i komentara. Ova aplikacija može biti korisna u moderiranju sadržaja koji zahtijeva analizu štetnih slika.
    • Povećanje mogućnosti zapošljavanja za inženjere računalnog vida i NLP strojnog učenja i podatkovne znanstvenike.
    • Startupi koji grade ove AI sustave kako bi ih komercijalizirali ili pružili prilagođena rješenja za tvrtke.

    Pitanja za komentar

    • Što mislite kako će inače vokenizacija promijeniti način na koji komuniciramo s robotima?
    • Kako vokenizacija može promijeniti način na koji poslujemo i komuniciramo s našim uređajima (pametnim telefonima i pametnim uređajima)?

    Reference uvida

    Za ovaj uvid korištene su sljedeće popularne i institucionalne veze: