Вокенизация: Език, който AI може да види

КРЕДИТ ЗА ИЗОБРАЖЕНИЕ:
Изображение на кредит
iStock

Вокенизация: Език, който AI може да види

Вокенизация: Език, който AI може да види

Подзаглавен текст
С изображенията, които сега се включват в обучението на системите за изкуствен интелект (AI), роботите скоро може да могат да „виждат“ команди.
    • Автор:
    • име Автор
      Quantumrun Foresight
    • Май 9, 2023

    Обработката на естествен език (NLP) позволи на системите с изкуствен интелект (AI) да научат човешката реч чрез разбиране на думи и съпоставяне на контекста с настроението. Единственият недостатък е, че тези НЛП системи са изцяло базирани на текст. Вокенизацията е на път да промени всичко това.

    Контекст на вокенизация

    Две текстови програми за машинно обучение (ML) често се използват за обучение на AI да обработва и разбира човешкия език: Generative Pre-trained Transformer 3 (GPT-3) на OpenAI и BERT на Google (Bidirectional Encoder Representations from Transformers). В терминологията на AI думите, използвани в НЛП обучението, се наричат ​​токени. Изследователи от Университета на Северна Каролина (UNC) отбелязаха, че текстовите програми за обучение са ограничени, защото не могат да „виждат“, което означава, че не могат да уловят визуална информация и комуникация. 

    Например, ако някой попита GPT-3 какъв е цветът на овцата, системата често ще отговори "черна", дори ако е ясно бяла. Този отговор е, защото базираната на текст система ще го свърже с термина „черна овца“, вместо да идентифицира правилния цвят. Чрез включването на визуални елементи с токени (voken), AI системите могат да имат цялостно разбиране на термините. Вокенизацията интегрира вокените в самоконтролирани НЛП системи, позволявайки им да развият „здрав разум“.

    Интегрирането на езикови модели и компютърно зрение не е нова концепция и е бързо разширяваща се област в изследванията на ИИ. Комбинацията от тези два типа AI използва техните индивидуални силни страни. Езикови модели като GPT-3 се обучават чрез обучение без надзор, което им позволява лесно мащабиране. Обратно, моделите на изображения като системите за разпознаване на обекти могат директно да се учат от реалността и не разчитат на абстракцията, предоставена от текста. Например, моделите на изображения могат да разпознаят, че една овца е бяла, като гледат снимка.

    Разрушително въздействие

    Процесът на вокенизация е доста лесен. Вокените се създават чрез присвояване на съответстващи или подходящи изображения на езикови токени. След това алгоритмите (вокенизатор) са предназначени да генерират вокени чрез неконтролирано обучение (без изрични параметри/правила). ИИ на здравия разум, обучен чрез вокенизация, може да комуникира и да решава проблеми по-добре, защото има по-задълбочено разбиране на контекста. Този подход е уникален, защото не само предвижда езикови токени, но също така предвижда токени за изображения, което е нещо, което традиционните BERT модели не могат да направят.

    Например, роботизираните асистенти ще могат да разпознават изображения и да навигират процесите по-добре, защото могат да „виждат“ какво се изисква от тях. Системите с изкуствен интелект, обучени да пишат съдържание, ще могат да създават статии, които звучат по-човешки, с идеи, които протичат по-добре, вместо несвързани изречения. Като се има предвид широкият обхват на NLP приложенията, вокенизацията може да доведе до по-ефективни чатботове, виртуални асистенти, онлайн медицински диагнози, дигитални преводачи и др.

    Освен това комбинацията от зрение и езиково обучение набира популярност в приложенията за медицински изображения, по-специално за автоматизирана диагностика на медицински изображения. Например, някои изследователи експериментират с този подход върху рентгенови изображения с придружаващи текстови описания, където семантичното сегментиране може да отнеме много време. Техниката на вокенизация може да подобри тези представяния и да подобри автоматизираните медицински изображения чрез използване на текстовата информация.

    Приложения за вокенизация

    Някои приложения за вокенизация могат да включват:

    • Интуитивни чатботове, които могат да обработват екранни снимки, снимки и съдържание на уебсайтове. По-специално чатботовете за поддръжка на клиенти може да са в състояние да препоръчат точно продукти и услуги.
    • Дигитални преводачи, които могат да обработват изображения и видеоклипове и да предоставят точен превод, който взема предвид културния и ситуационен контекст.
    • Скенерите за ботове в социалните медии могат да извършват по-цялостен анализ на настроенията чрез обединяване на изображения, надписи и коментари. Това приложение може да бъде полезно при модериране на съдържание, което изисква анализ на вредни изображения.
    • Увеличаване на възможностите за работа за инженери по компютърно зрение и NLP машинно обучение и учени по данни.
    • Стартиращите фирми надграждат тези AI системи, за да ги комерсиализират или предоставят персонализирани решения за бизнеса.

    Въпроси за коментар

    • Как иначе смятате, че вокенизацията ще промени начина, по който взаимодействаме с роботите?
    • Как може вокенизацията да промени начина, по който водим бизнес и взаимодействаме с нашите джаджи (смартфони и смарт уреди)?

    Препратки към Insight

    Следните популярни и институционални връзки бяха посочени за тази информация: