Vokenization: وہ زبان جسے AI دیکھ سکتا ہے۔

تصویری کریڈٹ:
تصویری کریڈٹ
iStock

Vokenization: وہ زبان جسے AI دیکھ سکتا ہے۔

Vokenization: وہ زبان جسے AI دیکھ سکتا ہے۔

ذیلی سرخی والا متن
اب تصاویر کو مصنوعی ذہانت (AI) سسٹمز کی تربیت میں شامل کیے جانے کے بعد، روبوٹ جلد ہی کمانڈز کو "دیکھنے" کے قابل ہو سکتے ہیں۔
    • مصنف:
    • مصنف کا نام
      Quantumrun دور اندیشی
    • 9 فرمائے، 2023

    نیچرل لینگویج پروسیسنگ (NLP) نے مصنوعی ذہانت (AI) سسٹم کو الفاظ کو سمجھ کر اور سیاق و سباق کو جذبات کے ساتھ ملا کر انسانی تقریر سیکھنے کے قابل بنایا ہے۔ صرف منفی پہلو یہ ہے کہ یہ NLP سسٹم مکمل طور پر ٹیکسٹ پر مبنی ہیں۔ ووکنائزیشن اس سب کو تبدیل کرنے والی ہے۔

    ووکنائزیشن سیاق و سباق

    دو متن پر مبنی مشین لرننگ (ML) پروگرام اکثر انسانی زبان کو پروسیس کرنے اور سمجھنے کے لیے AI کو تربیت دینے کے لیے استعمال کیے جاتے ہیں: OpenAI's Generative Pre-trained Transformer 3 (GPT-3) اور Google's BERT (Bidirectional Encoder Representations from Transformers)۔ AI اصطلاح میں، NLP ٹریننگ میں استعمال ہونے والے الفاظ ٹوکن کہلاتے ہیں۔ یونیورسٹی آف نارتھ کیرولائنا (UNC) کے محققین نے مشاہدہ کیا کہ متن پر مبنی تربیتی پروگرام محدود ہیں کیونکہ وہ "دیکھ نہیں سکتے" یعنی وہ بصری معلومات اور مواصلات کو حاصل نہیں کر سکتے۔ 

    مثال کے طور پر، اگر کوئی GPT-3 سے پوچھے کہ بھیڑوں کا رنگ کیا ہے، تو سسٹم اکثر "کالا" جواب دے گا چاہے وہ واضح طور پر سفید ہی کیوں نہ ہو۔ یہ جواب اس لیے ہے کہ متن پر مبنی نظام اسے صحیح رنگ کی شناخت کرنے کے بجائے "کالی بھیڑوں" کی اصطلاح سے جوڑ دے گا۔ ٹوکن (voken) کے ساتھ بصری کو شامل کرنے سے، AI سسٹمز اصطلاحات کی مکمل سمجھ حاصل کر سکتے ہیں۔ ووکنائزیشن آوازوں کو خود زیر نگرانی این ایل پی سسٹمز میں ضم کرتی ہے، جس سے وہ "عام فہم" پیدا کر سکتے ہیں۔

    زبان کے ماڈلز اور کمپیوٹر ویژن کو یکجا کرنا کوئی نیا تصور نہیں ہے، اور یہ AI تحقیق میں تیزی سے پھیلتا ہوا میدان ہے۔ ان دو قسم کے AI کا مجموعہ ان کی انفرادی طاقتوں کا فائدہ اٹھاتا ہے۔ زبان کے ماڈلز جیسے GPT-3 کو غیر زیر نگرانی سیکھنے کے ذریعے تربیت دی جاتی ہے، جس سے وہ آسانی سے پیمائش کر سکتے ہیں۔ اس کے برعکس، تصویری ماڈل جیسے آبجیکٹ ریکگنیشن سسٹم براہ راست حقیقت سے سیکھ سکتے ہیں اور متن کے ذریعہ فراہم کردہ تجرید پر بھروسہ نہیں کرتے ہیں۔ مثال کے طور پر، تصویری ماڈل تصویر کو دیکھ کر پہچان سکتے ہیں کہ ایک بھیڑ سفید ہے۔

    خلل ڈالنے والا اثر

    vokenization کا عمل بہت سیدھا ہے۔ زبان کے ٹوکنز کو متعلقہ یا متعلقہ تصاویر تفویض کر کے Vokens بنائے جاتے ہیں۔ اس کے بعد، الگورتھم (vokenizer) کو بغیر نگرانی کے سیکھنے (کوئی واضح پیرامیٹرز/قواعد نہیں) کے ذریعے vokens بنانے کے لیے ڈیزائن کیا گیا ہے۔ ووکنائزیشن کے ذریعے تربیت یافتہ کامن سینس AI مسائل کو بہتر طریقے سے بات چیت اور حل کر سکتا ہے کیونکہ ان کے پاس سیاق و سباق کی زیادہ گہرائی سے سمجھ ہوتی ہے۔ یہ نقطہ نظر منفرد ہے کیونکہ یہ نہ صرف زبان کے ٹوکن کی پیش گوئی کرتا ہے بلکہ تصویری ٹوکن کی بھی پیشین گوئی کرتا ہے، جو کہ روایتی BERT ماڈلز کرنے سے قاصر ہیں۔

    مثال کے طور پر، روبوٹک معاونین تصاویر کو پہچاننے اور عمل کو بہتر طریقے سے نیویگیٹ کرنے کے قابل ہوں گے کیونکہ وہ "دیکھ" سکتے ہیں کہ ان سے کیا ضروری ہے۔ مواد لکھنے کے لیے تربیت یافتہ مصنوعی ذہانت کے نظام ایسے مضامین کو تیار کرنے کے قابل ہوں گے جو زیادہ انسانی لگتے ہیں، ایسے خیالات کے ساتھ جو بہتر انداز میں چلتے ہیں، بجائے اس کے کہ متضاد جملوں کے۔ NLP ایپلی کیشنز کی وسیع رسائی کو مدنظر رکھتے ہوئے، ووکنائزیشن بہتر کارکردگی کا مظاہرہ کرنے والے چیٹ بوٹس، ورچوئل اسسٹنٹ، آن لائن طبی تشخیص، ڈیجیٹل مترجم، اور بہت کچھ کا باعث بن سکتی ہے۔

    مزید برآں، بصارت اور زبان سیکھنے کا امتزاج میڈیکل امیجنگ ایپلی کیشنز میں مقبولیت حاصل کر رہا ہے، خاص طور پر خودکار طبی تصویر کی تشخیص کے لیے۔ مثال کے طور پر، کچھ محققین اس نقطہ نظر کے ساتھ ریڈیوگراف امیجز پر متن کی تفصیل کے ساتھ تجربہ کر رہے ہیں، جہاں سیمنٹک سیگمنٹیشن وقت طلب ہو سکتی ہے۔ ووکنائزیشن تکنیک ان نمائندگیوں کو بڑھا سکتی ہے اور متن کی معلومات کو استعمال کرتے ہوئے خودکار میڈیکل امیجنگ کو بہتر بنا سکتی ہے۔

    ووکنائزیشن کے لیے درخواستیں۔

    vokenization کے لیے کچھ درخواستوں میں شامل ہو سکتے ہیں:

    • بدیہی چیٹ بوٹس جو اسکرین شاٹس، تصاویر اور ویب سائٹ کے مواد پر کارروائی کر سکتے ہیں۔ کسٹمر سپورٹ چیٹ بوٹس، خاص طور پر، مصنوعات اور خدمات کو درست طریقے سے تجویز کرنے کے قابل ہو سکتے ہیں۔
    • ڈیجیٹل مترجم جو تصاویر اور ویڈیوز پر کارروائی کر سکتے ہیں اور ایک درست ترجمہ فراہم کر سکتے ہیں جو ثقافتی اور حالات کے تناظر پر غور کرتا ہے۔
    • سوشل میڈیا بوٹ اسکینرز تصاویر، کیپشنز اور تبصروں کو ملا کر مزید جامع جذباتی تجزیہ کرنے کے قابل ہیں۔ یہ ایپلیکیشن مواد کی اعتدال میں کارآمد ثابت ہوسکتی ہے جس کے لیے نقصان دہ تصاویر کے تجزیہ کی ضرورت ہوتی ہے۔
    • کمپیوٹر وژن اور NLP مشین لرننگ انجینئرز اور ڈیٹا سائنسدانوں کے لیے روزگار کے مواقع میں اضافہ۔
    • ان AI سسٹمز کو تجارتی بنانے یا کاروبار کے لیے اپنی مرضی کے مطابق حل فراہم کرنے کے لیے اسٹارٹ اپس بنا رہے ہیں۔

    تبصرہ کرنے کے لیے سوالات

    • آپ کے خیال میں ووکنائزیشن کیسے بدل جائے گی کہ ہم روبوٹس کے ساتھ کیسے تعامل کرتے ہیں؟
    • ووکنائزیشن کیسے بدل سکتی ہے کہ ہم کس طرح کاروبار کرتے ہیں اور اپنے گیجٹس (اسمارٹ فونز اور سمارٹ آلات) کے ساتھ تعامل کرتے ہیں؟

    بصیرت کے حوالے

    اس بصیرت کے لیے درج ذیل مشہور اور ادارہ جاتی روابط کا حوالہ دیا گیا:

    ایم ائی ٹی ٹیکنالوجی کا جائزہ لیں یہ عام فہم AI میں اگلی بڑی پیش رفت کا باعث بن سکتا ہے۔