Vokenization: Tungumál sem gervigreind getur séð

MYNDAGREIÐSLA:
Image inneign
iStock

Vokenization: Tungumál sem gervigreind getur séð

Vokenization: Tungumál sem gervigreind getur séð

Texti undirfyrirsagna
Þar sem myndir eru nú teknar inn í gervigreindarkerfisþjálfun (AI) gætu vélmenni brátt „séð“ skipanir.
    • Höfundur:
    • Höfundur nafn
      Quantumrun Foresight
    • Kann 9, 2023

    Náttúruleg málvinnsla (NLP) hefur gert gervigreindarkerfum (AI) kleift að læra mannlegt tal með því að skilja orð og passa samhengi við tilfinninguna. Eini gallinn er sá að þessi NLP kerfi eru eingöngu byggð á texta. Vokenization er um það bil að breyta þessu öllu.

    Vokenization samhengi

    Tvö textatengd vélanám (ML) forrit eru oft notuð til að þjálfa gervigreind til að vinna úr og skilja mannamál: OpenAI's Generative Pre-trained Transformer 3 (GPT-3) og Google's BERT (Bidirectional Encoder Representations from Transformers). Í hugtökum gervigreindar eru orðin sem notuð eru í NLP þjálfun kölluð tákn. Vísindamenn frá háskólanum í Norður-Karólínu (UNC) komust að því að textatengd þjálfunaráætlanir eru takmarkaðar vegna þess að þeir geta ekki "séð", sem þýðir að þeir geta ekki fanga sjónrænar upplýsingar og samskipti. 

    Til dæmis, ef einhver spyr GPT-3 hvaða litur kindin sé, svarar kerfið oft "svart" jafnvel þó það sé greinilega hvítt. Þetta svar er vegna þess að textakerfið mun tengja það við hugtakið „svartur sauðfé“ í stað þess að auðkenna réttan lit. Með því að samþætta myndefni með táknum (voken), geta gervigreind kerfi haft heildstæðan skilning á hugtökum. Vokenization samþættir vokens inn í sjálfstætt NLP kerfi, sem gerir þeim kleift að þróa "heilbrigða skynsemi."

    Samþætting tungumálalíkana og tölvusjónar er ekki nýtt hugtak og það er ört stækkandi svið í gervigreindarrannsóknum. Samsetning þessara tveggja tegunda gervigreindar nýtir einstaka styrkleika þeirra. Tungumálalíkön eins og GPT-3 eru þjálfuð í gegnum nám án eftirlits, sem gerir þeim kleift að skala auðveldlega. Aftur á móti geta myndlíkön eins og hlutgreiningarkerfi lært beint af raunveruleikanum og treysta ekki á abstraktið sem textinn gefur. Til dæmis geta myndlíkön viðurkennt að kind sé hvít með því að horfa á mynd.

    Truflandi áhrif

    Ferlið við vokenization er frekar einfalt. Vokens eru búnar til með því að úthluta samsvarandi eða viðeigandi myndum á tungumálamerki. Síðan eru reiknirit (vokenizer) hönnuð til að búa til vokens í gegnum eftirlitslaust nám (engar skýrar breytur/reglur). Skynsemi gervigreind sem þjálfuð er með vokenization getur átt samskipti og leyst vandamál betur vegna þess að þeir hafa dýpri skilning á samhengi. Þessi nálgun er einstök vegna þess að hún spáir ekki aðeins fyrir um tungumálatákn heldur spáir einnig fyrir um myndtákn, sem er eitthvað sem hefðbundin BERT líkön geta ekki gert.

    Til dæmis munu vélfærafræðiaðstoðarmenn geta þekkt myndir og flakkað betur um ferla vegna þess að þeir geta „séð“ hvað er krafist af þeim. Gervigreindarkerfi sem eru þjálfuð í að skrifa efni munu geta búið til greinar sem hljóma mannlegri, með hugmyndum sem flæða betur, í stað sundurlausra setninga. Miðað við víðtæka útbreiðslu NLP forrita getur vokenization leitt til betri árangurs spjallbotna, sýndaraðstoðarmanna, læknisfræðilegra greininga á netinu, stafrænna þýðenda og fleira.

    Að auki nýtur samsetning sjón- og tungumálanáms vinsælda í læknisfræðilegum myndgreiningarforritum, sérstaklega fyrir sjálfvirka læknisfræðilega myndgreiningu. Sumir vísindamenn eru til dæmis að gera tilraunir með þessa nálgun á röntgenmyndum með tilheyrandi textalýsingum, þar sem merkingarleg skipting getur verið tímafrek. Vokenization tæknin gæti aukið þessar framsetningar og bætt sjálfvirka læknisfræðilega myndgreiningu með því að nýta textaupplýsingarnar.

    Umsóknir um vokenization

    Sum forrit um vokenization geta innihaldið:

    • Innsæi spjallbotar sem geta unnið úr skjámyndum, myndum og innihaldi vefsíðunnar. Sérstaklega gætu spjallbotar fyrir þjónustuverið mælt með vörum og þjónustu nákvæmlega.
    • Stafrænir þýðendur sem geta unnið úr myndum og myndböndum og veitt nákvæma þýðingu sem tekur mið af menningar- og aðstæðum.
    • Samfélagsmiðlabotskannarar geta framkvæmt heildrænni tilfinningagreiningu með því að sameina myndir, myndatexta og athugasemdir. Þetta forrit getur verið gagnlegt í efnisstjórnun sem krefst greiningar á skaðlegum myndum.
    • Auka atvinnutækifæri fyrir tölvusjón og NLP vélanámsverkfræðinga og gagnafræðinga.
    • Sprotafyrirtæki sem byggja á þessum gervigreindarkerfum til að markaðssetja þau eða veita sérsniðnar lausnir fyrir fyrirtæki.

    Spurningar til að tjá sig um

    • Hvernig heldurðu annars að vokenization muni breyta því hvernig við höfum samskipti við vélmenni?
    • Hvernig getur vokenization breytt því hvernig við stundum viðskipti og höfum samskipti við græjur okkar (snjallsíma og snjalltæki)?

    Innsýn tilvísanir

    Vísað var til eftirfarandi vinsælu og stofnanatengla fyrir þessa innsýn: