Vokenizácia: Jazyk, ktorý AI vidí

OBRÁZOK PRE OBRÁZOK:
Obrazový kredit
iStock

Vokenizácia: Jazyk, ktorý AI vidí

Vokenizácia: Jazyk, ktorý AI vidí

Text podnadpisu
S obrázkami, ktoré sa teraz začleňujú do tréningu systémov umelej inteligencie (AI), by roboti mohli čoskoro „vidieť“ príkazy.
    • Autor:
    • meno autora
      Predvídavosť Quantumrun
    • Môže 9, 2023

    Spracovanie prirodzeného jazyka (NLP) umožnilo systémom umelej inteligencie (AI) naučiť sa ľudskú reč porozumením slovám a priradením kontextu k pocitu. Jedinou nevýhodou je, že tieto NLP systémy sú čisto textové. Vokenizácia to všetko zmení.

    Kontext vokenizácie

    Na trénovanie AI na spracovanie a pochopenie ľudského jazyka sa často používajú dva textové programy strojového učenia (ML): Generative Pre-trained Transformer 3 (GPT-3) od OpenAI a BERT (Bidirectional Encoder Representations from Transformers) od Googlu. V terminológii AI sa slová používané v tréningu NLP nazývajú tokeny. Výskumníci z University of North Carolina (UNC) zistili, že textové školiace programy sú obmedzené, pretože nemôžu „vidieť“, čo znamená, že nedokážu zachytiť vizuálne informácie a komunikáciu. 

    Napríklad, ak sa niekto spýta GPT-3, aká je farba ovečky, systém často odpovie „čierna“, aj keď je jasne biela. Táto odpoveď je spôsobená tým, že textový systém ju spojí s výrazom „čierna ovca“ namiesto identifikácie správnej farby. Začlenením vizuálov s tokenmi (voken) môžu systémy AI holistické chápanie pojmov. Vokenizácia integruje vokenov do samokontrolovaných NLP systémov, čo im umožňuje rozvíjať „zdravý rozum“.

    Integrácia jazykových modelov a počítačového videnia nie je nový koncept a je to rýchlo sa rozvíjajúca oblasť výskumu AI. Kombinácia týchto dvoch typov AI využíva ich individuálne silné stránky. Jazykové modely ako GPT-3 sú trénované učením bez dozoru, čo im umožňuje ľahko škálovať. Naproti tomu obrazové modely, ako sú systémy rozpoznávania objektov, sa môžu priamo učiť z reality a nespoliehajú sa na abstrakciu poskytovanú textom. Obrazové modely môžu napríklad pri pohľade na obrázok rozpoznať, že ovca je biela.

    Rušivý vplyv

    Proces vokenizácie je celkom jednoduchý. Vokeny sa vytvárajú priradením zodpovedajúcich alebo relevantných obrázkov k jazykovým tokenom. Potom sú algoritmy (vokenizer) navrhnuté na generovanie vokenov prostredníctvom učenia bez dozoru (žiadne explicitné parametre/pravidlá). Umelá inteligencia so zdravým rozumom vyškolená prostredníctvom vokenizácie dokáže lepšie komunikovať a riešiť problémy, pretože má hlbšie pochopenie kontextu. Tento prístup je jedinečný, pretože predpovedá nielen jazykové tokeny, ale aj obrázkové tokeny, čo tradičné modely BERT nedokážu.

    Robotickí asistenti budú napríklad schopní rozpoznávať obrázky a lepšie sa orientovať v procesoch, pretože „vidia“, čo sa od nich vyžaduje. Systémy umelej inteligencie vycvičené na písanie obsahu budú schopné namiesto nesúvislých viet vytvárať články, ktoré znejú ľudskejšie, s lepšími myšlienkami. Vzhľadom na široký dosah aplikácií NLP môže vokenizácia viesť k lepšie fungujúcim chatbotom, virtuálnym asistentom, online lekárskym diagnózam, digitálnym prekladačom a ďalším.

    Okrem toho, kombinácia vízie a jazykového vzdelávania získava na popularite v lekárskych zobrazovacích aplikáciách, špeciálne pre automatizovanú diagnostiku medicínskych obrazov. Niektorí výskumníci napríklad experimentujú s týmto prístupom na röntgenových snímkach so sprievodným textovým popisom, kde môže byť sémantická segmentácia časovo náročná. Technika vokenizácie by mohla zlepšiť tieto reprezentácie a zlepšiť automatizované lekárske zobrazovanie využitím textových informácií.

    Žiadosti o vokenizáciu

    Niektoré aplikácie na vokenizáciu môžu zahŕňať:

    • Intuitívne chatboty, ktoré dokážu spracovať snímky obrazovky, obrázky a obsah webových stránok. Najmä chatboti zákazníckej podpory môžu byť schopní presne odporučiť produkty a služby.
    • Digitálne prekladače, ktoré dokážu spracovať obrázky a videá a poskytnúť presný preklad, ktorý zohľadňuje kultúrny a situačný kontext.
    • Skenery robotov sociálnych médií sú schopné vykonávať komplexnejšiu analýzu sentimentu zlúčením obrázkov, titulkov a komentárov. Táto aplikácia môže byť užitočná pri moderovaní obsahu, ktorý si vyžaduje analýzu škodlivých obrázkov.
    • Zvyšovanie pracovných príležitostí pre inžinierov počítačového videnia a strojového učenia NLP a vedcov údajov.
    • Startupy, ktoré stavajú na týchto systémoch AI, aby ich komercializovali alebo poskytovali podnikom prispôsobené riešenia.

    Otázky na komentár

    • Ako inak podľa vás vokenizácia zmení spôsob, akým komunikujeme s robotmi?
    • Ako môže vokenizácia zmeniť spôsob, akým podnikáme a komunikujeme s našimi gadgetmi (smartfóny a inteligentné zariadenia)?

    Prehľadové referencie

    Pre tento prehľad boli použité nasledujúce populárne a inštitucionálne odkazy: