Език за вокенизация ai може да види

КРЕДИТ ЗА ИЗОБРАЖЕНИЕ:

iStock

Вокенизация: Език, който AI може да види

С изображенията, които сега се включват в обучението на системите за изкуствен интелект (AI), роботите скоро може да могат да „виждат“ команди.

Автор:
име Автор
Quantumrun Foresight
Май 9, 2023

Обработката на естествен език (NLP) позволи на системите с изкуствен интелект (AI) да научат човешката реч чрез разбиране на думи и съпоставяне на контекста с настроението. Единственият недостатък е, че тези НЛП системи са изцяло базирани на текст. Вокенизацията е на път да промени всичко това.

Контекст на вокенизация

Две текстови програми за машинно обучение (ML) често се използват за обучение на AI да обработва и разбира човешкия език: Generative Pre-trained Transformer 3 (GPT-3) на OpenAI и BERT на Google (Bidirectional Encoder Representations from Transformers). В терминологията на AI думите, използвани в НЛП обучението, се наричат токени. Изследователи от Университета на Северна Каролина (UNC) отбелязаха, че текстовите програми за обучение са ограничени, защото не могат да „виждат“, което означава, че не могат да уловят визуална информация и комуникация.

Например, ако някой попита GPT-3 какъв е цветът на овцата, системата често ще отговори "черна", дори ако е ясно бяла. Този отговор е, защото базираната на текст система ще го свърже с термина „черна овца“, вместо да идентифицира правилния цвят. Чрез включването на визуални елементи с токени (voken), AI системите могат да имат цялостно разбиране на термините. Вокенизацията интегрира вокените в самоконтролирани НЛП системи, позволявайки им да развият „здрав разум“.

Интегрирането на езикови модели и компютърно зрение не е нова концепция и е бързо разширяваща се област в изследванията на ИИ. Комбинацията от тези два типа AI използва техните индивидуални силни страни. Езикови модели като GPT-3 се обучават чрез обучение без надзор, което им позволява лесно мащабиране. Обратно, моделите на изображения като системите за разпознаване на обекти могат директно да се учат от реалността и не разчитат на абстракцията, предоставена от текста. Например, моделите на изображения могат да разпознаят, че една овца е бяла, като гледат снимка.

Разрушително въздействие

Процесът на вокенизация е доста лесен. Вокените се създават чрез присвояване на съответстващи или подходящи изображения на езикови токени. След това алгоритмите (вокенизатор) са предназначени да генерират вокени чрез неконтролирано обучение (без изрични параметри/правила). ИИ на здравия разум, обучен чрез вокенизация, може да комуникира и да решава проблеми по-добре, защото има по-задълбочено разбиране на контекста. Този подход е уникален, защото не само предвижда езикови токени, но също така предвижда токени за изображения, което е нещо, което традиционните BERT модели не могат да направят.

Например, роботизираните асистенти ще могат да разпознават изображения и да навигират процесите по-добре, защото могат да „виждат“ какво се изисква от тях. Системите с изкуствен интелект, обучени да пишат съдържание, ще могат да създават статии, които звучат по-човешки, с идеи, които протичат по-добре, вместо несвързани изречения. Като се има предвид широкият обхват на NLP приложенията, вокенизацията може да доведе до по-ефективни чатботове, виртуални асистенти, онлайн медицински диагнози, дигитални преводачи и др.

Освен това комбинацията от зрение и езиково обучение набира популярност в приложенията за медицински изображения, по-специално за автоматизирана диагностика на медицински изображения. Например, някои изследователи експериментират с този подход върху рентгенови изображения с придружаващи текстови описания, където семантичното сегментиране може да отнеме много време. Техниката на вокенизация може да подобри тези представяния и да подобри автоматизираните медицински изображения чрез използване на текстовата информация.

Приложения за вокенизация

Някои приложения за вокенизация могат да включват:

Интуитивни чатботове, които могат да обработват екранни снимки, снимки и съдържание на уебсайтове. По-специално чатботовете за поддръжка на клиенти може да са в състояние да препоръчат точно продукти и услуги.
Дигитални преводачи, които могат да обработват изображения и видеоклипове и да предоставят точен превод, който взема предвид културния и ситуационен контекст.
Скенерите за ботове в социалните медии могат да извършват по-цялостен анализ на настроенията чрез обединяване на изображения, надписи и коментари. Това приложение може да бъде полезно при модериране на съдържание, което изисква анализ на вредни изображения.
Увеличаване на възможностите за работа за инженери по компютърно зрение и NLP машинно обучение и учени по данни.
Стартиращите фирми надграждат тези AI системи, за да ги комерсиализират или предоставят персонализирани решения за бизнеса.

Въпроси за коментар

Как иначе смятате, че вокенизацията ще промени начина, по който взаимодействаме с роботите?
Как може вокенизацията да промени начина, по който водим бизнес и взаимодействаме с нашите джаджи (смартфони и смарт уреди)?

Добави към списъка