Vokenization: AI가 볼 수 있는 언어

이미지 크레딧:
이미지 크레딧
iStock

Vokenization: AI가 볼 수 있는 언어

Vokenization: AI가 볼 수 있는 언어

소제목 텍스트
이제 이미지가 인공 지능(AI) 시스템 교육에 통합되면서 로봇은 곧 명령을 "볼" 수 있습니다.
    • 저자:
    • 저자 이름
      퀀텀런 예측
    • 2023 년 5 월 9 일

    자연어 처리(NLP)는 인공 지능(AI) 시스템이 단어를 이해하고 정서와 맥락을 일치시켜 인간의 말을 학습할 수 있도록 했습니다. 유일한 단점은 이러한 NLP 시스템이 순전히 텍스트 기반이라는 것입니다. Vokenization은 모든 것을 바꿀 것입니다.

    음성화 컨텍스트

    OpenAI의 GPT-3(Generative Pre-trained Transformer 3) 및 Google의 BERT(Bidirectional Encoder Representations from Transformers)라는 두 가지 텍스트 기반 기계 학습(ML) 프로그램이 인간의 언어를 처리하고 이해하도록 AI를 훈련시키는 데 자주 사용됩니다. AI 용어로 NLP 학습에 사용되는 단어를 토큰이라고 합니다. 노스캐롤라이나 대학교(UNC)의 연구원들은 텍스트 기반 교육 프로그램이 "볼" 수 없기 때문에 제한적이라는 사실을 발견했습니다. 즉, 시각적 정보와 커뮤니케이션을 캡처할 수 없다는 의미입니다. 

    예를 들어 누군가가 GPT-3에게 양의 색깔이 무엇인지 물으면 시스템은 분명히 흰색인데도 "검은색"이라고 대답하는 경우가 많습니다. 이 응답은 텍스트 기반 시스템이 올바른 색상을 식별하는 대신 "검은 양"이라는 용어와 연관시키기 때문입니다. 시각적 요소를 토큰(voken)과 통합함으로써 AI 시스템은 용어를 전체적으로 이해할 수 있습니다. 음성화는 음성을 자체 감독 NLP 시스템에 통합하여 "상식"을 개발할 수 있도록 합니다.

    언어 모델과 컴퓨터 비전을 통합하는 것은 새로운 개념이 아니며 AI 연구에서 빠르게 확장되고 있는 분야입니다. 이 두 가지 유형의 AI를 조합하면 개별 강점을 활용할 수 있습니다. GPT-3와 같은 언어 모델은 비지도 학습을 통해 학습되므로 쉽게 확장할 수 있습니다. 반대로 객체 인식 시스템과 같은 이미지 모델은 현실에서 직접 학습할 수 있으며 텍스트가 제공하는 추상화에 의존하지 않습니다. 예를 들어 이미지 모델은 사진을 보고 양이 하얗다는 것을 인식할 수 있습니다.

    파괴적 영향

    발화 과정은 매우 간단합니다. 보켄은 언어 토큰에 해당하거나 관련된 이미지를 할당하여 생성됩니다. 그런 다음 비지도 학습(명시적 매개변수/규칙 없음)을 통해 보켄을 생성하도록 알고리즘(vokenizer)이 설계됩니다. 음성화를 통해 훈련된 상식 AI는 상황에 대한 더 깊은 이해를 가지고 있기 때문에 더 잘 소통하고 문제를 해결할 수 있습니다. 이 접근 방식은 언어 토큰을 예측할 뿐만 아니라 기존 BERT 모델이 할 수 없는 이미지 토큰도 예측하기 때문에 고유합니다.

    예를 들어, 로봇 어시스턴트는 필요한 것을 "볼" 수 있기 때문에 이미지를 인식하고 프로세스를 더 잘 탐색할 수 있습니다. 콘텐츠를 작성하도록 훈련된 인공 지능 시스템은 분리된 문장 대신 더 잘 흐르는 아이디어로 더 인간적으로 들리는 기사를 만들 수 있습니다. NLP 애플리케이션의 광범위한 범위를 고려할 때 음성화는 더 나은 성능의 챗봇, 가상 비서, 온라인 의료 진단, 디지털 번역기 등으로 이어질 수 있습니다.

    또한 시각과 언어 학습의 조합은 특히 자동 의료 영상 진단을 위한 의료 영상 애플리케이션에서 인기를 얻고 있습니다. 예를 들어, 일부 연구자는 텍스트 설명이 수반되는 방사선 사진 이미지에 대해 이 접근 방식을 실험하고 있는데, 여기서 의미론적 분할은 시간이 많이 소요될 수 있습니다. 음성화 기술은 이러한 표현을 향상시키고 텍스트 정보를 활용하여 자동화된 의료 영상을 향상시킬 수 있습니다.

    음성화 애플리케이션

    음성화를 위한 일부 응용 프로그램에는 다음이 포함될 수 있습니다.

    • 스크린샷, 사진, 웹사이트 콘텐츠를 처리할 수 있는 직관적인 챗봇입니다. 특히 고객 지원 챗봇은 제품과 서비스를 정확하게 추천할 수 있습니다.
    • 이미지와 영상을 가공하여 문화적, 상황적 맥락을 고려한 정확한 번역을 제공하는 디지털 번역가.
    • 소셜 미디어 봇 스캐너는 이미지, 캡션 및 댓글을 병합하여 보다 전체적인 감정 분석을 수행할 수 있습니다. 이 애플리케이션은 유해한 이미지 분석이 필요한 콘텐츠 조정에 유용할 수 있습니다.
    • 컴퓨터 비전 및 NLP 기계 학습 엔지니어 및 데이터 과학자의 고용 기회 증가.
    • 이러한 AI 시스템을 기반으로 구축한 스타트업은 이를 상용화하거나 비즈니스에 맞춤형 솔루션을 제공합니다.

    논평할 질문

    • 음성화가 우리가 로봇과 상호 작용하는 방식을 어떻게 바꿀 것이라고 생각하십니까?
    • 음성화는 우리가 비즈니스를 수행하고 가제트(스마트폰 및 스마트 기기)와 상호 작용하는 방식을 어떻게 바꿀 수 있습니까?

    통찰력 참조

    이 통찰력을 위해 다음과 같은 인기 있는 기관 링크를 참조했습니다.