Vokenization: زبانی که هوش مصنوعی می تواند ببیند

اعتبار تصویر:
تصویر های اعتباری
iStock

Vokenization: زبانی که هوش مصنوعی می تواند ببیند

Vokenization: زبانی که هوش مصنوعی می تواند ببیند

متن زیر عنوان
با توجه به اینکه اکنون تصاویر در آموزش سیستم‌های هوش مصنوعی (AI) گنجانده شده‌اند، ربات‌ها ممکن است به زودی قادر به «دیدن» دستورات باشند.
    • نویسنده:
    • نام نویسنده
      آینده نگاری کوانتوم ران
    • ممکن است 9، 2023

    پردازش زبان طبیعی (NLP) سیستم‌های هوش مصنوعی (AI) را قادر می‌سازد تا گفتار انسان را با درک کلمات و مطابقت متن با احساسات یاد بگیرند. تنها نقطه ضعف این است که این سیستم های NLP صرفاً مبتنی بر متن هستند. Vokenization قرار است همه اینها را تغییر دهد.

    زمینه صداگذاری

    دو برنامه یادگیری ماشینی مبتنی بر متن (ML) اغلب برای آموزش هوش مصنوعی برای پردازش و درک زبان انسان استفاده می‌شود: ترانسفورماتور پیش‌آموزش‌دهی OpenAI 3 (GPT-3) و BERT Google (نمایش‌های رمزگذار دوطرفه از Transformers). در اصطلاحات هوش مصنوعی به کلماتی که در آموزش NLP استفاده می شود توکن می گویند. محققان دانشگاه کارولینای شمالی (UNC) مشاهده کردند که برنامه‌های آموزشی مبتنی بر متن محدود هستند، زیرا نمی‌توانند «ببینند»، به این معنی که نمی‌توانند اطلاعات و ارتباطات بصری را ضبط کنند. 

    به عنوان مثال، اگر کسی از GPT-3 بپرسد که رنگ گوسفند چیست، سیستم اغلب به "سیاه" پاسخ می دهد، حتی اگر به وضوح سفید باشد. این پاسخ به این دلیل است که سیستم مبتنی بر متن به جای تشخیص رنگ صحیح، آن را با اصطلاح "گوسفند سیاه" مرتبط می کند. با ترکیب تصاویر با توکن ها (voken)، سیستم های هوش مصنوعی می توانند درک جامعی از اصطلاحات داشته باشند. Vokenization، voken ها را در سیستم های NLP تحت نظارت خود ادغام می کند و به آنها اجازه می دهد "عقل سلیم" را توسعه دهند.

    ادغام مدل های زبان و بینایی کامپیوتر مفهوم جدیدی نیست و زمینه ای است که به سرعت در حال گسترش در تحقیقات هوش مصنوعی است. ترکیب این دو نوع هوش مصنوعی از نقاط قوت فردی آنها استفاده می کند. مدل‌های زبانی مانند GPT-3 از طریق یادگیری بدون نظارت آموزش داده می‌شوند که به آن‌ها اجازه می‌دهد به راحتی مقیاس شوند. در مقابل، مدل‌های تصویر مانند سیستم‌های تشخیص شی می‌توانند مستقیماً از واقعیت بیاموزند و بر انتزاع ارائه شده توسط متن تکیه نکنند. به عنوان مثال، مدل‌های تصویری می‌توانند با نگاه کردن به تصویر، سفید بودن گوسفند را تشخیص دهند.

    تاثیر مخرب

    فرآیند vokenization بسیار ساده است. Voken ها با اختصاص دادن تصاویر متناظر یا مرتبط به نشانه های زبان ایجاد می شوند. سپس، الگوریتم‌هایی (vokenizer) برای تولید voken از طریق یادگیری بدون نظارت (بدون پارامتر/قوانین صریح) طراحی می‌شوند. هوش مصنوعی عقل سلیم که از طریق vokenization آموزش داده شده است، می تواند بهتر ارتباط برقرار کند و مشکلات را حل کند، زیرا آنها درک عمیق تری از زمینه دارند. این رویکرد منحصر به فرد است زیرا نه تنها نشانه های زبان را پیش بینی می کند، بلکه نشانه های تصویر را نیز پیش بینی می کند، کاری که مدل های BERT سنتی قادر به انجام آن نیستند.

    به عنوان مثال، دستیارهای رباتیک قادر خواهند بود تصاویر را تشخیص دهند و فرآیندها را بهتر هدایت کنند زیرا می توانند آنچه را که از آنها خواسته می شود "ببینند". سیستم‌های هوش مصنوعی که برای نوشتن محتوا آموزش دیده‌اند، می‌توانند به‌جای جملات از هم گسیخته، مقالاتی بسازند که ظاهری انسانی‌تر داشته باشند، با ایده‌هایی که جریان بهتری دارند. با توجه به گستردگی برنامه‌های NLP، vokenization می‌تواند منجر به عملکرد بهتر ربات‌های چت، دستیاران مجازی، تشخیص‌های پزشکی آنلاین، مترجمان دیجیتال و موارد دیگر شود.

    علاوه بر این، ترکیب بینایی و یادگیری زبان در برنامه‌های تصویربرداری پزشکی، به‌ویژه برای تشخیص خودکار تصاویر پزشکی، محبوبیت پیدا می‌کند. به عنوان مثال، برخی از محققان در حال آزمایش این رویکرد بر روی تصاویر رادیوگرافی با توضیحات متنی هستند که در آن تقسیم بندی معنایی می تواند زمان بر باشد. تکنیک vokenization می‌تواند این نمایش‌ها را بهبود بخشد و تصویربرداری خودکار پزشکی را با استفاده از اطلاعات متنی بهبود بخشد.

    برنامه های کاربردی برای vokenization

    برخی از برنامه های کاربردی برای vokenization ممکن است شامل موارد زیر باشد:

    • چت ربات های بصری که می توانند اسکرین شات ها، تصاویر و محتوای وب سایت را پردازش کنند. به ویژه چت ربات های پشتیبانی مشتری ممکن است بتوانند محصولات و خدمات را به طور دقیق توصیه کنند.
    • مترجم های دیجیتالی که می توانند تصاویر و فیلم ها را پردازش کنند و ترجمه دقیقی را ارائه دهند که زمینه فرهنگی و موقعیتی را در نظر می گیرد.
    • اسکنرهای ربات رسانه های اجتماعی می توانند با ادغام تصاویر، زیرنویس ها و نظرات، تجزیه و تحلیل احساسات جامع تری را انجام دهند. این برنامه می تواند در تعدیل محتوایی که نیاز به تجزیه و تحلیل تصاویر مضر دارد مفید باشد.
    • افزایش فرصت های شغلی برای مهندسان بینایی کامپیوتر و یادگیری ماشین NLP و دانشمندان داده.
    • استارت‌آپ‌هایی که بر روی این سیستم‌های هوش مصنوعی ساخته می‌شوند تا آنها را تجاری‌سازی کنند یا راه‌حل‌های سفارشی‌سازی شده برای کسب‌وکارها را ارائه دهند.

    سوالاتی برای اظهار نظر

    • فکر می‌کنید دیگر چگونه vokenization نحوه تعامل ما با روبات‌ها را تغییر می‌دهد؟
    • چگونه vokenization می تواند نحوه انجام تجارت و تعامل ما با ابزارهای خود (گوشی های هوشمند و لوازم هوشمند) را تغییر دهد؟

    مراجع بینش

    پیوندهای محبوب و نهادی زیر برای این بینش ارجاع داده شد: