Język vokenizacji ai widzi

KREDYT WZROKU:

iStock

Vokenization: Język, który widzi AI

Ponieważ obrazy są obecnie włączane do szkoleń systemów sztucznej inteligencji (AI), roboty mogą wkrótce „widzieć” polecenia.

Autor:
nazwisko autora
Foresight Quantumrun
9 maja 2023 r.

Przetwarzanie języka naturalnego (NLP) umożliwiło systemom sztucznej inteligencji (AI) naukę ludzkiej mowy poprzez rozumienie słów i dopasowywanie kontekstu do nastrojów. Jedynym minusem jest to, że te systemy NLP są oparte wyłącznie na tekście. Vokenizacja ma to wszystko zmienić.

Kontekst wokenizacyjny

Dwa tekstowe programy uczenia maszynowego (ML) są często używane do szkolenia sztucznej inteligencji w zakresie przetwarzania i rozumienia ludzkiego języka: OpenAI Generative Pre-trained Transformer 3 (GPT-3) i Google BERT (Bidirectional Encoder Representations from Transformers). W terminologii AI słowa używane w szkoleniu NLP nazywane są tokenami. Naukowcy z University of North Carolina (UNC) zauważyli, że programy szkoleniowe oparte na tekście są ograniczone, ponieważ nie mogą „widzieć”, co oznacza, że nie mogą uchwycić informacji wizualnych i komunikacji.

Na przykład, jeśli ktoś zapyta GPT-3, jaki jest kolor owcy, system często odpowie „czarny”, nawet jeśli jest wyraźnie biały. Ta odpowiedź jest spowodowana tym, że system tekstowy skojarzy ją z terminem „czarna owca” zamiast zidentyfikować właściwy kolor. Włączając elementy wizualne do tokenów (voken), systemy sztucznej inteligencji mogą mieć całościowe zrozumienie terminów. Vokenization integruje vokeny z samonadzorowanymi systemami NLP, pozwalając im rozwinąć „zdrowy rozsądek”.

Integracja modeli językowych i wizji komputerowej nie jest nową koncepcją i jest szybko rozwijającą się dziedziną badań nad sztuczną inteligencją. Połączenie tych dwóch typów sztucznej inteligencji pozwala wykorzystać ich indywidualne mocne strony. Modele językowe, takie jak GPT-3, są szkolone poprzez uczenie się bez nadzoru, co umożliwia ich łatwe skalowanie. Natomiast modele obrazów, takie jak systemy rozpoznawania obiektów, mogą bezpośrednio uczyć się na podstawie rzeczywistości i nie polegać na abstrakcji zapewnianej przez tekst. Na przykład modele obrazu mogą rozpoznać, że owca jest biała, patrząc na zdjęcie.

Zakłócający wpływ

Proces wokenizacji jest dość prosty. Vokeny są tworzone poprzez przypisanie odpowiednich lub odpowiednich obrazów do tokenów językowych. Następnie algorytmy (vokenizer) mają na celu generowanie vokenów poprzez uczenie się bez nadzoru (brak wyraźnych parametrów/reguł). Zdroworozsądkowa sztuczna inteligencja wyszkolona poprzez wokenizację może lepiej komunikować się i rozwiązywać problemy, ponieważ ma bardziej dogłębne zrozumienie kontekstu. To podejście jest wyjątkowe, ponieważ przewiduje nie tylko tokeny językowe, ale także tokeny graficzne, czego tradycyjne modele BERT nie są w stanie zrobić.

Na przykład robotyczni asystenci będą w stanie lepiej rozpoznawać obrazy i nawigować po procesach, ponieważ będą mogli „zobaczyć”, czego się od nich wymaga. Systemy sztucznej inteligencji przeszkolone do pisania treści będą w stanie tworzyć artykuły, które brzmią bardziej po ludzku, z pomysłami, które płyną lepiej, zamiast chaotycznych zdań. Biorąc pod uwagę szeroki zasięg aplikacji NLP, wokenizacja może prowadzić do bardziej wydajnych chatbotów, wirtualnych asystentów, internetowych diagnoz medycznych, cyfrowych tłumaczy i nie tylko.

Ponadto połączenie widzenia i uczenia się języka zyskuje popularność w zastosowaniach do obrazowania medycznego, w szczególności do zautomatyzowanej diagnostyki obrazów medycznych. Na przykład niektórzy badacze eksperymentują z tym podejściem na zdjęciach rentgenowskich z towarzyszącymi opisami tekstowymi, gdzie semantyczna segmentacja może być czasochłonna. Technika wokenizacji może ulepszyć te reprezentacje i ulepszyć zautomatyzowane obrazowanie medyczne poprzez wykorzystanie informacji tekstowych.

Aplikacje do wokenizacji

Niektóre aplikacje do wokenizacji mogą obejmować:

Intuicyjne chatboty, które mogą przetwarzać zrzuty ekranu, obrazy i zawartość strony internetowej. W szczególności chatboty obsługi klienta mogą dokładnie polecać produkty i usługi.
Tłumacze cyfrowi, którzy mogą przetwarzać obrazy i filmy oraz dostarczać dokładne tłumaczenie uwzględniające kontekst kulturowy i sytuacyjny.
Skanery botów mediów społecznościowych mogą przeprowadzać bardziej holistyczną analizę nastrojów poprzez łączenie obrazów, podpisów i komentarzy. Ta aplikacja może być przydatna w moderowaniu treści, które wymaga analizy szkodliwych obrazów.
Zwiększenie możliwości zatrudnienia dla inżynierów zajmujących się wizją komputerową i uczeniem maszynowym NLP oraz naukowców zajmujących się danymi.
Startupy wykorzystują te systemy sztucznej inteligencji do ich komercjalizacji lub dostarczania niestandardowych rozwiązań dla firm.

Pytania do skomentowania

Jak inaczej myślisz, że wokenizowanie zmieni sposób, w jaki wchodzimy w interakcje z robotami?
W jaki sposób vokenizacja może zmienić sposób, w jaki prowadzimy biznes i wchodzimy w interakcje z naszymi gadżetami (smartfonami i inteligentnymi urządzeniami)?

Dodaj do listy zakupów