Vokenization: Språk som AI kan se

BILDKREDIT:
Bild kredit
iStock

Vokenization: Språk som AI kan se

Vokenization: Språk som AI kan se

Underrubrik text
Med bilder som nu införlivas i utbildning för artificiell intelligens (AI) kan robotar snart kunna "se" kommandon.
    • Författare:
    • författarnamn
      Quantumrun Framsyn
    • Maj 9, 2023

    Naturlig språkbehandling (NLP) har gjort det möjligt för system med artificiell intelligens (AI) att lära sig mänskligt tal genom att förstå ord och matcha sammanhang med känslan. Den enda nackdelen är att dessa NLP-system är rent textbaserade. Vokenization är på väg att förändra allt detta.

    Vokeniseringskontext

    Två textbaserade maskininlärningsprogram (ML) används ofta för att träna AI att bearbeta och förstå mänskligt språk: OpenAI:s Generative Pre-trained Transformer 3 (GPT-3) och Googles BERT (Bidirectional Encoder Representations from Transformers). I AI-terminologi kallas orden som används i NLP-träning tokens. Forskare från University of North Carolina (UNC) observerade att textbaserade träningsprogram är begränsade eftersom de inte kan "se", vilket betyder att de inte kan fånga visuell information och kommunikation. 

    Till exempel, om någon frågar GPT-3 vad färgen på fåren är, kommer systemet ofta att svara "svart" även om det är tydligt vitt. Detta svar beror på att det textbaserade systemet kommer att associera det med termen "svarta får" istället för att identifiera rätt färg. Genom att införliva bilder med tokens (voken) kan AI-system ha en holistisk förståelse av termer. Vokenization integrerar vokens i självövervakade NLP-system, vilket gör att de kan utveckla "sunt förnuft".

    Att integrera språkmodeller och datorseende är inget nytt koncept, och det är ett snabbt växande område inom AI-forskning. Kombinationen av dessa två typer av AI utnyttjar deras individuella styrkor. Språkmodeller som GPT-3 tränas genom oövervakad inlärning, vilket gör att de enkelt kan skala. Däremot kan bildmodeller som objektigenkänningssystem direkt lära av verkligheten och förlitar sig inte på den abstraktion som texten ger. Till exempel kan bildmodeller känna igen att ett får är vitt genom att titta på en bild.

    Störande inverkan

    Processen för vokenisering är ganska enkel. Vokens skapas genom att tilldela motsvarande eller relevanta bilder till språktokens. Sedan är algoritmer (vokenizer) utformade för att generera vokens genom oövervakad inlärning (inga explicita parametrar/regler). Sunt förnuft AI tränad genom vokenisering kan kommunicera och lösa problem bättre eftersom de har en mer djupgående förståelse av sammanhang. Detta tillvägagångssätt är unikt eftersom det inte bara förutsäger språktokens utan också förutsäger bildtokens, vilket är något som traditionella BERT-modeller inte kan göra.

    Till exempel kommer robotassistenter att kunna känna igen bilder och navigera i processer bättre eftersom de kan "se" vad som krävs av dem. Artificiell intelligens som tränats för att skriva innehåll kommer att kunna skapa artiklar som låter mer mänskliga, med idéer som flyter bättre, istället för osammanhängande meningar. Med tanke på den breda räckvidden av NLP-applikationer kan vokenisering leda till bättre presterande chatbots, virtuella assistenter, medicinska diagnoser online, digitala översättare och mer.

    Dessutom vinner kombinationen av syn och språkinlärning popularitet i medicinska bildbehandlingsapplikationer, speciellt för automatiserad medicinsk bilddiagnos. En del forskare experimenterar till exempel med detta tillvägagångssätt på röntgenbilder med tillhörande textbeskrivningar, där semantisk segmentering kan vara tidskrävande. Vokeniseringstekniken skulle kunna förbättra dessa representationer och förbättra automatiserad medicinsk avbildning genom att använda textinformationen.

    Ansökningar om vokenisering

    Vissa applikationer för vokenisering kan inkludera:

    • Intuitiva chatbots som kan bearbeta skärmdumpar, bilder och webbplatsinnehåll. I synnerhet chatbots för kundsupport kan kanske korrekt rekommendera produkter och tjänster.
    • Digitala översättare som kan bearbeta bilder och videor och tillhandahålla en korrekt översättning som tar hänsyn till kulturella och situationella sammanhang.
    • Botskannrar för sociala medier kan utföra en mer holistisk sentimentanalys genom att slå samman bilder, bildtexter och kommentarer. Denna applikation kan vara användbar i innehållsmoderering som kräver analys av skadliga bilder.
    • Öka sysselsättningsmöjligheterna för datorseende och NLP-maskininlärningsingenjörer och datavetare.
    • Nystartade företag som bygger på dessa AI-system för att kommersialisera dem eller tillhandahålla skräddarsydda lösningar för företag.

    Frågor att kommentera

    • Hur tror du annars att vokenisering kommer att förändra hur vi interagerar med robotar?
    • Hur kan vokenisering förändra hur vi bedriver affärer och interagerar med våra prylar (smarttelefoner och smarta apparater)?

    Insiktsreferenser

    Följande populära och institutionella länkar hänvisades till för denna insikt: