Вокенизация: язык, который может видеть ИИ

ИЗОБРАЖЕНИЕ КРЕДИТ:
Кредит изображения
Istock

Вокенизация: язык, который может видеть ИИ

Вокенизация: язык, который может видеть ИИ

Текст подзаголовка
Теперь, когда изображения включаются в обучение систем искусственного интеллекта (ИИ), роботы вскоре смогут «видеть» команды.
    • Автор:
    • Имя автора
      Квантумран Форсайт
    • 9 мая 2023

    Обработка естественного языка (NLP) позволила системам искусственного интеллекта (ИИ) изучать человеческую речь, понимая слова и сопоставляя контекст с эмоциями. Единственным недостатком является то, что эти системы НЛП основаны исключительно на тексте. Вокенизация вот-вот все изменит.

    Контекст вокенизации

    Для обучения ИИ обработке и пониманию человеческого языка часто используются две текстовые программы машинного обучения (ML): Generative Pre-trained Transformer 3 (GPT-3) от OpenAI и BERT от Google (представления двунаправленного кодировщика от трансформеров). В терминологии ИИ слова, используемые при обучении НЛП, называются токенами. Исследователи из Университета Северной Каролины (UNC) заметили, что текстовые обучающие программы ограничены, поскольку они не могут «видеть», то есть не могут улавливать визуальную информацию и общение. 

    Например, если кто-то спросит GPT-3, какого цвета овца, система часто ответит «черный», даже если она явно белая. Этот ответ связан с тем, что текстовая система свяжет его с термином «черная овца» вместо того, чтобы определить правильный цвет. Включая визуальные эффекты с токенами (voken), системы ИИ могут иметь целостное понимание терминов. Вокенизация интегрирует вокены в самоконтролируемые системы НЛП, позволяя им развивать «здравый смысл».

    Интеграция языковых моделей и компьютерного зрения — не новая концепция, и это быстро развивающаяся область исследований ИИ. Комбинация этих двух типов ИИ использует их сильные стороны. Языковые модели, такие как GPT-3, обучаются посредством обучения без учителя, что позволяет легко масштабировать их. Напротив, модели изображений, такие как системы распознавания объектов, могут напрямую учиться на реальности и не полагаться на абстракции, предоставляемые текстом. Например, модели изображения могут распознать, что овца белая, посмотрев на картинку.

    Разрушительное воздействие

    Процесс вокенизации довольно прост. Вокены создаются путем назначения соответствующих или релевантных изображений языковым токенам. Затем разрабатываются алгоритмы (вокенизаторы) для генерации вокенов посредством неконтролируемого обучения (без явных параметров/правил). Здравый смысл ИИ, обученный с помощью вокенизации, может лучше общаться и решать проблемы, потому что он более глубоко понимает контекст. Этот подход уникален, поскольку он не только предсказывает языковые токены, но также предсказывает токены изображений, чего традиционные модели BERT не могут сделать.

    Например, роботы-помощники смогут лучше распознавать изображения и ориентироваться в процессах, потому что они «видят» то, что от них требуется. Системы искусственного интеллекта, обученные писать контент, смогут создавать статьи, которые звучат более человечно, с идеями, которые лучше излагаются, а не бессвязными предложениями. Учитывая широкий спектр приложений NLP, вокенизация может привести к более эффективным чат-ботам, виртуальным помощникам, онлайн-медицинским диагнозам, цифровым переводчикам и многому другому.

    Кроме того, сочетание зрения и изучения языка набирает популярность в приложениях медицинской визуализации, особенно для автоматической диагностики медицинских изображений. Например, некоторые исследователи экспериментируют с этим подходом на рентгенограммах с сопровождающими текстовыми описаниями, где семантическая сегментация может занять много времени. Метод вокенизации может улучшить эти представления и улучшить автоматизированную медицинскую визуализацию за счет использования текстовой информации.

    Приложения для вокенизации

    Некоторые приложения для вокенизации могут включать:

    • Интуитивно понятные чат-боты, которые могут обрабатывать снимки экрана, изображения и содержимое веб-сайта. Чат-боты поддержки клиентов, в частности, могут точно рекомендовать продукты и услуги.
    • Цифровые переводчики, которые могут обрабатывать изображения и видео и обеспечивать точный перевод с учетом культурного и ситуационного контекста.
    • Сканеры ботов социальных сетей могут проводить более целостный анализ настроений, объединяя изображения, подписи и комментарии. Это приложение может быть полезно для модерации контента, требующего анализа вредоносных изображений.
    • Расширение возможностей трудоустройства для инженеров по компьютерному зрению и машинному обучению НЛП и специалистов по данным.
    • Стартапы, использующие эти системы искусственного интеллекта для их коммерциализации или предоставления индивидуальных решений для бизнеса.

    Вопросы для комментариев

    • Как еще, по вашему мнению, вокенизация изменит наше взаимодействие с роботами?
    • Как вокенизация может изменить то, как мы ведем бизнес и взаимодействуем с нашими гаджетами (смартфонами и смарт-устройствами)?

    Ссылки на статистику

    Для этого понимания использовались следующие популярные и институциональные ссылки: