Мова вакенізацыі AI можа бачыць

КРЭДЫТ ВЫЯВЫ:

Istock

Вакенізацыя: мова, якую можа бачыць ІІ

З малюнкамі, якія зараз уключаюцца ў навучанне сістэмам штучнага інтэлекту (AI), робаты неўзабаве могуць "бачыць" каманды.

аўтар:
імя аўтара
Quantumrun Foresight
Можа 9, 2023

Апрацоўка натуральнай мовы (NLP) дазволіла сістэмам штучнага інтэлекту (AI) вывучаць чалавечую гаворку, разумеючы словы і супастаўляючы кантэкст з пачуццямі. Адзіным недахопам з'яўляецца тое, што гэтыя сістэмы НЛП выключна тэкставыя. Ваканізацыя вось-вось усё гэта зменіць.

Кантэкст вакенізацыі

Дзве тэкставыя праграмы машыннага навучання (ML) часта выкарыстоўваюцца для навучання штучнага інтэлекту апрацоўцы і разуменню чалавечай мовы: Generative Pre-trained Transformer 3 (GPT-3) ад OpenAI і BERT (Bidirectional Encoder Representations from Transformers) ад Google. У тэрміналогіі штучнага інтэлекту словы, якія выкарыстоўваюцца ў навучанні НЛП, называюцца токенамі. Даследчыкі з Універсітэта Паўночнай Караліны (UNC) заўважылі, што тэкставыя навучальныя праграмы абмежаваныя, таму што яны не могуць "бачыць", што азначае, што яны не могуць захапіць візуальную інфармацыю і камунікацыю.

Напрыклад, калі хтосьці спытае GPT-3, якога колеру авечка, сістэма часта адкажа «чорная», нават калі яна відавочна белая. Гэты адказ адбываецца таму, што тэкставая сістэма будзе звязваць яго з тэрмінам "чорная авечка" замест таго, каб вызначыць правільны колер. Дзякуючы ўключэнню візуальных элементаў з маркерамі (voken), сістэмы штучнага інтэлекту могуць мець цэласнае разуменне тэрмінаў. Вокенізацыя інтэгруе вокены ў сістэмы НЛП, якія кантралююцца самакантролем, што дазваляе ім развіваць «здаровы сэнс».

Інтэграцыя моўных мадэляў і камп'ютэрнага зроку - не новая канцэпцыя, і гэта хутка пашыраецца поле даследаванняў штучнага інтэлекту. Спалучэнне гэтых двух тыпаў штучнага інтэлекту выкарыстоўвае іх індывідуальныя моцныя бакі. Такія моўныя мадэлі, як GPT-3, навучаюцца шляхам некантраляванага навучання, што дазваляе ім лёгка маштабавацца. У адрозненне ад гэтага, мадэлі малюнкаў, такія як сістэмы распазнавання аб'ектаў, могуць непасрэдна вучыцца ў рэальнасці і не абапірацца на абстракцыю, прадстаўленую тэкстам. Напрыклад, імідж-мадэлі могуць распазнаць, што авечка белая, гледзячы на малюнак.

Разбуральнае ўздзеянне

Працэс вакенізацыі даволі просты. Вокены ствараюцца шляхам прысваення лексемам мовы адпаведных або адпаведных малюнкаў. Затым алгарытмы (вокенайзер) прызначаны для генерацыі вокенаў шляхам некантраляванага навучання (без відавочных параметраў/правілаў). ШІ здаровага сэнсу, навучаны вакенізацыі, можа лепш размаўляць і вырашаць праблемы, таму што яны больш глыбока разумеюць кантэкст. Гэты падыход з'яўляецца унікальным, таму што ён не толькі прагназуе токены мовы, але таксама прадказвае токены выявы, чаго не могуць зрабіць традыцыйныя мадэлі BERT.

Напрыклад, робаты-памочнікі змогуць лепш распазнаваць выявы і арыентавацца ў працэсах, таму што яны могуць «бачыць», што ад іх патрабуецца. Сістэмы штучнага інтэлекту, навучаныя пісаць кантэнт, змогуць ствараць артыкулы, якія гучаць больш па-чалавечы, з ідэямі, якія лепш цякуць, замест раз'яднаных прапаноў. Улічваючы шырокі ахоп прыкладанняў NLP, вакенізацыя можа прывесці да больш эфектыўных чат-ботаў, віртуальных памочнікаў, медыцынскіх дыягназаў у Інтэрнэце, лічбавых перакладчыкаў і г.д.

Акрамя таго, камбінацыя вывучэння зроку і мовы набірае папулярнасць у праграмах медыцынскай візуалізацыі, асабліва для аўтаматызаванай дыягностыкі медыцынскай выявы. Напрыклад, некаторыя даследчыкі эксперыментуюць з такім падыходам на рэнтгенаграмах з тэкставымі апісаннямі, дзе семантычная сегментацыя можа заняць шмат часу. Тэхніка вакенізацыі можа палепшыць гэтыя ўяўленні і палепшыць аўтаматызаваныя медыцынскія выявы, выкарыстоўваючы тэкставую інфармацыю.

Прыкладання для вокенизации

Некаторыя праграмы для вакенізацыі могуць уключаць:

Інтуітыўна зразумелыя чат-боты, якія могуць апрацоўваць скрыншоты, малюнкі і змесціва вэб-сайтаў. Чат-боты падтрымкі кліентаў, у прыватнасці, могуць дакладна рэкамендаваць прадукты і паслугі.
Лічбавыя перакладчыкі, якія могуць апрацоўваць выявы і відэа і забяспечваць дакладны пераклад з улікам культурнага і сітуацыйнага кантэксту.
Боты-сканеры сацыяльных сетак могуць праводзіць больш цэласны аналіз настрояў, аб'ядноўваючы выявы, подпісы і каментарыі. Гэта дадатак можа быць карысным для мадэрацыі кантэнту, які патрабуе аналізу шкодных малюнкаў.
Пашырэнне магчымасцей працаўладкавання для інжынераў па камп'ютэрным зроку і машыннага навучання NLP і навукоўцаў па апрацоўцы дадзеных.
Стартапы, якія будуюць гэтыя сістэмы штучнага інтэлекту, каб камерцыялізаваць іх або прадастаўляць індывідуальныя рашэнні для бізнесу.

Пытанні для каментавання

Як яшчэ, на вашу думку, вокенізацыя зменіць наша ўзаемадзеянне з робатамі?
Як вакенізацыя можа змяніць тое, як мы вядзем бізнес і ўзаемадзейнічаем з нашымі гаджэтамі (смартфонамі і разумнымі прыладамі)?

Дадаць у спіс