Vokénisation : langage que l'IA peut voir

CRÉDIT D'IMAGE:
Crédit image
iStock

Vokénisation : langage que l'IA peut voir

Vokénisation : langage que l'IA peut voir

Texte du sous-titre
Les images étant désormais intégrées dans la formation des systèmes d'intelligence artificielle (IA), les robots pourraient bientôt être en mesure de « voir » les commandes.
    • Auteur :
    • Nom de l'auteur
      Prévision quantique
    • 9 mai 2023

    Le traitement du langage naturel (TAL) a permis aux systèmes d'intelligence artificielle (IA) d'apprendre la parole humaine en comprenant les mots et en faisant correspondre le contexte avec le sentiment. Le seul inconvénient est que ces systèmes NLP sont purement basés sur du texte. La vocalisation est sur le point de changer tout cela.

    Contexte de vocalisation

    Deux programmes d'apprentissage automatique (ML) basés sur du texte sont souvent utilisés pour entraîner l'IA à traiter et à comprendre le langage humain : OpenAI's Generative Pre-trained Transformer 3 (GPT-3) et Google's BERT (Bidirectional Encoder Representations from Transformers). Dans la terminologie de l'IA, les mots utilisés dans la formation PNL sont appelés jetons. Des chercheurs de l'Université de Caroline du Nord (UNC) ont observé que les programmes de formation basés sur du texte sont limités car ils ne peuvent pas "voir", ce qui signifie qu'ils ne peuvent pas capturer les informations et la communication visuelles. 

    Par exemple, si quelqu'un demande au GPT-3 quelle est la couleur du mouton, le système répondra souvent "noir" même s'il est clairement blanc. Cette réponse est due au fait que le système textuel l'associera au terme "mouton noir" au lieu d'identifier la bonne couleur. En incorporant des visuels avec des jetons (voken), les systèmes d'IA peuvent avoir une compréhension holistique des termes. La vocénisation intègre les vokens dans des systèmes de PNL auto-supervisés, leur permettant de développer le "bon sens".

    L'intégration des modèles de langage et de la vision par ordinateur n'est pas un nouveau concept, et c'est un domaine en pleine expansion dans la recherche sur l'IA. La combinaison de ces deux types d'IA tire parti de leurs atouts individuels. Les modèles de langage comme GPT-3 sont entraînés par un apprentissage non supervisé, ce qui leur permet d'évoluer facilement. En revanche, les modèles d'images comme les systèmes de reconnaissance d'objets peuvent apprendre directement de la réalité et ne s'appuient pas sur l'abstraction fournie par le texte. Par exemple, les modèles d'image peuvent reconnaître qu'un mouton est blanc en regardant une image.

    Impact perturbateur

    Le processus de vocénisation est assez simple. Les Vokens sont créés en attribuant des images correspondantes ou pertinentes aux jetons de langue. Ensuite, des algorithmes (vokenizer) sont conçus pour générer des vokens par apprentissage non supervisé (pas de paramètres/règles explicites). L'IA de bon sens formée par la vocénisation peut mieux communiquer et résoudre les problèmes car elle a une compréhension plus approfondie du contexte. Cette approche est unique car elle prédit non seulement les jetons de langue, mais également les jetons d'image, ce que les modèles BERT traditionnels sont incapables de faire.

    Par exemple, les assistants robotiques seront en mesure de reconnaître les images et de mieux naviguer dans les processus car ils peuvent « voir » ce qui est attendu d'eux. Les systèmes d'intelligence artificielle formés pour écrire du contenu pourront créer des articles qui sonnent plus humains, avec des idées qui coulent mieux, au lieu de phrases décousues. Compte tenu de la large portée des applications NLP, la vokenisation peut conduire à des chatbots, des assistants virtuels, des diagnostics médicaux en ligne, des traducteurs numériques, etc. plus performants.

    De plus, la combinaison de la vision et de l'apprentissage du langage gagne en popularité dans les applications d'imagerie médicale, en particulier pour le diagnostic automatisé des images médicales. Par exemple, certains chercheurs expérimentent cette approche sur des images radiographiques accompagnées de descriptions textuelles, où la segmentation sémantique peut prendre du temps. La technique de vocalisation pourrait améliorer ces représentations et améliorer l'imagerie médicale automatisée en utilisant les informations textuelles.

    Demandes de vokénisation

    Certaines applications de vocalisation peuvent inclure :

    • Des chatbots intuitifs qui peuvent traiter les captures d'écran, les images et le contenu du site Web. Les chatbots de support client, en particulier, peuvent être en mesure de recommander avec précision des produits et des services.
    • Des traducteurs numériques capables de traiter des images et des vidéos et de fournir une traduction précise qui tient compte du contexte culturel et situationnel.
    • Les scanners de robots de réseaux sociaux sont capables d'effectuer une analyse plus globale des sentiments en fusionnant des images, des légendes et des commentaires. Cette application peut être utile dans la modération de contenu qui nécessite l'analyse d'images nuisibles.
    • Accroître les opportunités d'emploi pour les ingénieurs en vision par ordinateur et en apprentissage automatique NLP et les scientifiques des données.
    • Les startups s'appuient sur ces systèmes d'IA pour les commercialiser ou fournir des solutions personnalisées aux entreprises.

    Questions à commenter

    • Sinon, comment pensez-vous que la vokenisation changera la façon dont nous interagissons avec les robots ?
    • Comment la vokenisation peut-elle changer la façon dont nous menons nos activités et interagissons avec nos gadgets (smartphones et appareils intelligents) ?

    Références Insight

    Les liens populaires et institutionnels suivants ont été référencés pour cet aperçu :