التكلم: لغة يستطيع الذكاء الاصطناعي رؤيتها

رصيد الصورة:
الصورة الائتمان
ستوك

التكلم: لغة يستطيع الذكاء الاصطناعي رؤيتها

التكلم: لغة يستطيع الذكاء الاصطناعي رؤيتها

نص عنوان فرعي
مع دمج الصور الآن في تدريب أنظمة الذكاء الاصطناعي (AI) ، قد تتمكن الروبوتات قريبًا من "رؤية" الأوامر.
    • كاتب:
    • اسم المؤلف
      البصيرة الكمومية
    • 9 مايو 2023

    مكّنت معالجة اللغة الطبيعية (NLP) أنظمة الذكاء الاصطناعي (AI) من تعلم الكلام البشري من خلال فهم الكلمات ومطابقة السياق مع المشاعر. الجانب السلبي الوحيد هو أن أنظمة البرمجة اللغوية العصبية هذه تعتمد على النصوص فقط. التكلم على وشك تغيير كل ذلك.

    سياق التكلم

    غالبًا ما يتم استخدام برنامجين للتعلم الآلي (ML) لتدريب الذكاء الاصطناعي على معالجة وفهم اللغة البشرية: OpenAI's Generative Generative Transformer 3 (GPT-3) و Google BERT (تمثيلات التشفير ثنائية الاتجاه من المحولات). في مصطلحات الذكاء الاصطناعي ، تسمى الكلمات المستخدمة في التدريب على البرمجة اللغوية العصبية (الرموز). لاحظ باحثون من جامعة نورث كارولينا (UNC) أن برامج التدريب القائمة على النصوص محدودة لأنهم لا يستطيعون "الرؤية" ، مما يعني أنهم لا يستطيعون التقاط المعلومات المرئية والتواصل. 

    على سبيل المثال ، إذا سأل شخص ما GPT-3 عن لون الخروف ، فغالبًا ما يجيب النظام "أسود" حتى لو كان أبيض واضحًا. هذه الاستجابة لأن النظام القائم على النص سيربطها بمصطلح "الخروف الأسود" بدلاً من تحديد اللون الصحيح. من خلال دمج العناصر المرئية مع الرموز (voken) ، يمكن أن تتمتع أنظمة الذكاء الاصطناعي بفهم شامل للمصطلحات. يدمج Vokenization vokens في أنظمة البرمجة اللغوية العصبية التي يتم الإشراف عليها ذاتيًا ، مما يسمح لهم بتطوير "الحس السليم".

    إن دمج نماذج اللغة ورؤية الكمبيوتر ليس مفهوماً جديداً ، وهو مجال يتوسع بسرعة في أبحاث الذكاء الاصطناعي. يعمل الجمع بين هذين النوعين من الذكاء الاصطناعي على تعزيز نقاط قوتهم الفردية. يتم تدريب نماذج اللغة مثل GPT-3 من خلال التعلم غير الخاضع للإشراف ، مما يسمح لهم بالتوسع بسهولة. في المقابل ، يمكن لنماذج الصور مثل أنظمة التعرف على الكائنات أن تتعلم مباشرة من الواقع ولا تعتمد على التجريد الذي يوفره النص. على سبيل المثال ، يمكن لنماذج الصور التعرف على أن الخروف أبيض من خلال النظر إلى الصورة.

    التأثير التخريبي

    عملية التنبيه واضحة ومباشرة. يتم إنشاء Vokens من خلال تعيين الصور المقابلة أو ذات الصلة لرموز اللغة. بعد ذلك ، تم تصميم الخوارزميات (vokenizer) لتوليد vokens من خلال التعلم غير الخاضع للإشراف (بدون معايير / قواعد واضحة). الفطرة السليمة للذكاء الاصطناعي المدربة من خلال النطق يمكنها التواصل وحل المشكلات بشكل أفضل لأن لديهم فهمًا أكثر عمقًا للسياق. هذا النهج فريد من نوعه لأنه لا يتنبأ فقط بالرموز اللغوية ولكنه يتنبأ أيضًا بالرموز المميزة للصور ، وهو أمر لا تستطيع نماذج BERT التقليدية القيام به.

    على سبيل المثال ، سيتمكن المساعدون الروبوتيون من التعرف على الصور والتنقل في العمليات بشكل أفضل لأنهم يستطيعون "رؤية" ما هو مطلوب منهم. ستكون أنظمة الذكاء الاصطناعي المدربة على كتابة المحتوى قادرة على صياغة مقالات تبدو أكثر إنسانية ، بأفكار تتدفق بشكل أفضل ، بدلاً من الجمل المفككة. بالنظر إلى النطاق الواسع لتطبيقات البرمجة اللغوية العصبية ، يمكن أن يؤدي النطق إلى روبوتات محادثة ذات أداء أفضل ، ومساعدين افتراضيين ، وتشخيصات طبية عبر الإنترنت ، ومترجمين رقميين ، والمزيد.

    بالإضافة إلى ذلك ، فإن الجمع بين الرؤية وتعلم اللغة يكتسب شعبية في تطبيقات التصوير الطبي ، وخاصة للتشخيص الآلي للصور الطبية. على سبيل المثال ، يقوم بعض الباحثين بتجربة هذا النهج على الصور الشعاعية مع الأوصاف النصية المصاحبة ، حيث يمكن أن يكون التقسيم الدلالي مضيعة للوقت. يمكن لتقنية النطق أن تعزز هذه التمثيلات وتحسن التصوير الطبي الآلي من خلال استخدام المعلومات النصية.

    طلبات التكلم

    قد تشمل بعض تطبيقات النطق:

    • روبوتات الدردشة البديهية التي يمكنها معالجة لقطات الشاشة والصور ومحتوى موقع الويب. قد تكون روبوتات الدردشة لدعم العملاء ، على وجه الخصوص ، قادرة على التوصية بدقة بالمنتجات والخدمات.
    • المترجمون الرقميون الذين يمكنهم معالجة الصور ومقاطع الفيديو وتقديم ترجمة دقيقة تراعي السياق الثقافي والظرف.
    • تستطيع ماسحات روبوت وسائل التواصل الاجتماعي إجراء تحليل أكثر شمولية للمشاعر من خلال دمج الصور والتعليقات التوضيحية والتعليقات. يمكن أن يكون هذا التطبيق مفيدًا في الإشراف على المحتوى الذي يتطلب تحليل الصور الضارة.
    • زيادة فرص العمل للرؤية الحاسوبية ومهندسي التعلم الآلي وعلماء البيانات.
    • الشركات الناشئة التي تبني على أنظمة الذكاء الاصطناعي هذه لتسويقها أو تقديم حلول مخصصة للشركات.

    أسئلة للتعليق عليها

    • كيف تعتقد أن النطق بالنطق سيغير طريقة تفاعلنا مع الروبوتات؟
    • كيف يمكن للتحدث الصوتي أن يغير طريقة إدارتنا للأعمال والتفاعل مع أجهزتنا (الهواتف الذكية والأجهزة الذكية)؟

    مراجع البصيرة

    تمت الإشارة إلى الروابط الشعبية والمؤسسية التالية من أجل هذه الرؤية: