Vokenisatie: taal die AI kan zien

BEELDKREDIET:
Image credit
iStock

Vokenisatie: taal die AI kan zien

Vokenisatie: taal die AI kan zien

Onderkoptekst
Nu afbeeldingen worden opgenomen in training van kunstmatige intelligentie (AI) -systemen, kunnen robots binnenkort mogelijk commando's 'zien'.
    • Auteur:
    • auteursnaam
      Quantumrun-prognose
    • 9 mei 2023

    Natuurlijke taalverwerking (NLP) heeft kunstmatige-intelligentiesystemen (AI) in staat gesteld menselijke spraak te leren door woorden te begrijpen en context te matchen met het sentiment. Het enige nadeel is dat deze NLP-systemen puur op tekst zijn gebaseerd. Vokenisering gaat dat allemaal veranderen.

    Vokeniseringscontext

    Twee op tekst gebaseerde machine learning-programma's (ML) worden vaak gebruikt om AI te trainen om menselijke taal te verwerken en te begrijpen: OpenAI's Generative Pre-trained Transformer 3 (GPT-3) en Google's BERT (Bidirectional Encoder Representations from Transformers). In AI-terminologie worden de woorden die in NLP-training worden gebruikt tokens genoemd. Onderzoekers van de Universiteit van North Carolina (UNC) merkten op dat op tekst gebaseerde trainingsprogramma's beperkt zijn omdat ze niet kunnen 'zien', wat betekent dat ze geen visuele informatie en communicatie kunnen vastleggen. 

    Als iemand GPT-3 bijvoorbeeld vraagt ​​wat de kleur van de schapen is, antwoordt het systeem vaak "zwart", ook al is het duidelijk wit. Dit antwoord is omdat het op tekst gebaseerde systeem het zal associëren met de term "zwarte schapen" in plaats van de juiste kleur te identificeren. Door visuals met tokens (voken) op te nemen, kunnen AI-systemen een holistisch begrip van termen krijgen. Vokenization integreert vokens in zelfbeheerde NLP-systemen, waardoor ze 'gezond verstand' kunnen ontwikkelen.

    Het integreren van taalmodellen en computervisie is geen nieuw concept en het is een snel groeiend veld in AI-onderzoek. De combinatie van deze twee soorten AI maakt gebruik van hun individuele sterke punten. Taalmodellen zoals GPT-3 worden getraind door middel van leren zonder toezicht, waardoor ze gemakkelijk kunnen worden geschaald. Beeldmodellen daarentegen, zoals objectherkenningssystemen, kunnen direct leren van de werkelijkheid en vertrouwen niet op de abstractie die de tekst biedt. Beeldmodellen kunnen bijvoorbeeld herkennen dat een schaap wit is door naar een foto te kijken.

    Disruptieve impact

    Het proces van vokenisatie is vrij eenvoudig. Vokens worden gemaakt door corresponderende of relevante afbeeldingen toe te wijzen aan taaltokens. Vervolgens worden algoritmen (vokenizer) ontworpen om vokens te genereren door middel van leren zonder toezicht (geen expliciete parameters/regels). Gezond verstand AI getraind door vokenisatie kan beter communiceren en problemen oplossen omdat ze een meer diepgaand begrip van de context hebben. Deze aanpak is uniek omdat het niet alleen taaltokens voorspelt, maar ook beeldtokens voorspelt, iets wat traditionele BERT-modellen niet kunnen.

    Robotassistenten zullen bijvoorbeeld afbeeldingen kunnen herkennen en processen beter kunnen navigeren omdat ze kunnen 'zien' wat er van hen wordt verlangd. Kunstmatige-intelligentiesystemen die zijn getraind om inhoud te schrijven, zullen artikelen kunnen maken die menselijker klinken, met ideeën die beter vloeien, in plaats van onsamenhangende zinnen. Gezien het brede bereik van NLP-applicaties, kan vokenisatie leiden tot beter presterende chatbots, virtuele assistenten, online medische diagnoses, digitale vertalers en meer.

    Bovendien wint de combinatie van visie en taalleren aan populariteit in medische beeldvormingstoepassingen, met name voor geautomatiseerde medische beelddiagnose. Sommige onderzoekers experimenteren bijvoorbeeld met deze aanpak op röntgenfoto's met bijbehorende tekstbeschrijvingen, waar semantische segmentatie tijdrovend kan zijn. De vokenization-techniek zou deze representaties kunnen verbeteren en geautomatiseerde medische beeldvorming kunnen verbeteren door gebruik te maken van de tekstinformatie.

    Aanvragen voor vokenisatie

    Sommige toepassingen voor vokenisatie kunnen zijn:

    • Intuïtieve chatbots die screenshots, afbeeldingen en website-inhoud kunnen verwerken. Met name chatbots voor klantenondersteuning kunnen mogelijk nauwkeurig producten en diensten aanbevelen.
    • Digitale vertalers die afbeeldingen en video's kunnen verwerken en een nauwkeurige vertaling kunnen leveren die rekening houdt met de culturele en situationele context.
    • Botscanners voor sociale media kunnen een meer holistische sentimentanalyse uitvoeren door afbeeldingen, bijschriften en opmerkingen samen te voegen. Deze applicatie kan nuttig zijn bij het modereren van inhoud waarvoor de analyse van schadelijke afbeeldingen vereist is.
    • Het vergroten van de werkgelegenheid voor computer vision en NLP machine learning ingenieurs en datawetenschappers.
    • Startups bouwen voort op deze AI-systemen om ze te commercialiseren of om op maat gemaakte oplossingen voor bedrijven te bieden.

    Vragen om op te reageren

    • Hoe denk je anders dat vokenisatie de manier waarop we omgaan met robots zal veranderen?
    • Hoe kan vokenisatie de manier veranderen waarop we zaken doen en omgaan met onze gadgets (smartphones en slimme apparaten)?

    Insight-referenties

    Voor dit inzicht werd verwezen naar de volgende populaire en institutionele links: