Quantumrun

تصویری کریڈٹ:

iStock

تقریر کی ترکیب: روبوٹ جو آخر میں جذبات کا اظہار کرسکتے ہیں۔

اسپیچ سنتھیسز ٹیکنالوجی مزید انٹرایکٹو بوٹس کے لیے نئے مواقع کھول رہی ہے۔

مصنف:
مصنف کا نام
Quantumrun دور اندیشی
دسمبر 29، 2022

بصیرت کا خلاصہ

اگرچہ مشین سے تیار کردہ تقریر کچھ عرصے سے چلی آ رہی ہے، لیکن یہ صرف تقریر کی شناخت اور نسل میں ہونے والی پیشرفت سے ہے کہ یہ کم روبوٹک آواز دینے لگی ہے۔ کچھ کمپنیاں آواز کی ترکیب اور کلوننگ کی پیشرفت کا استعمال کر رہی ہیں تاکہ جذبات (یعنی ٹون) کو مشین سے تیار کردہ تقریر میں شامل کیا جا سکے۔ تقریر کی ترکیب کے طویل مدتی مضمرات میں مشہور شخصیات کی آوازوں کو دوبارہ بنانا اور اس سے بھی زیادہ قابل یقین ڈیپ فیک مواد شامل ہوسکتا ہے۔

تقریر کی ترکیب کا سیاق و سباق

انسانی آواز کی آواز کو دوبارہ تخلیق کرتے ہوئے مصنوعی تقریر ایک غیر انسانی ذریعہ (مثلاً کمپیوٹر) کے ذریعے تیار کی جاتی ہے۔ یہ ٹیکنالوجی 1930 کی دہائی سے موجود تھی جب امریکی صوتی انجینئر ہومر ڈڈلی نے پہلا ووکوڈر (وائس سنتھیسائزر) بنایا۔ دھیرے دھیرے، ایسے سسٹمز ابھرنے لگے جنہوں نے تقریر کی ترکیب کے معیار کو بہتر بنانے کے لیے Gaussian Mixture Models (GMM) کا استعمال کیا، اگرچہ رفتار نہیں۔ تاہم، ڈیپ لرننگ (DL، ایک مشین لرننگ کا طریقہ) اور مصنوعی ذہانت (AI) میں پیشرفت نے زیادہ قابل اعتماد اور قدرتی آواز والی گفتگو پیدا کرنے کے لیے ٹیکنالوجی کو بہتر کیا ہے۔ تقریر کی ترکیب کو بنیادی طور پر دو ڈیپ نیورل نیٹ ورکس (DNN) ٹیکنالوجیز کے ذریعے سپورٹ کیا جاتا ہے: ٹیکسٹ ٹو اسپیچ (TTS) اور وائس کنورژن (VC)۔

ٹیکسٹ ٹو اسپیچ ٹیکسٹ کو آواز میں تبدیل کرتا ہے، جبکہ VC کسی شخص کی آواز کو دوسرے کی نقل کرنے کے لیے تبدیل کر سکتا ہے۔ یہ دو DDNs اکثر ورچوئل اسسٹنٹس میں استعمال ہوتے ہیں، اور زیادہ نفیس آوازیں اور گفتگو کر سکتے ہیں۔ تقریر کی ترکیب زیادہ زور دار روبوٹ کی دیکھ بھال کرنے والے اور ہوشیار ڈیجیٹل ہوم اسسٹنٹ بنا سکتی ہے۔

تاہم سائبر حملوں کے لیے مصنوعی آواز کی ٹیکنالوجی بھی استعمال کی جا سکتی ہے۔ یہ دھوکہ دہی کی سرگرمیاں لوگوں کے وائس پرنٹس (آواز کے نمونے جو ڈیجیٹل طور پر ان کی بائیو میٹرک شناخت کے طور پر محفوظ کیے جاتے ہیں) کو سسٹم اور آلات میں گھسنے کے لیے نقل کرتے ہیں۔ صوتی کلوننگ ساتھیوں کو ان کے پاس ورڈ اور دیگر حساس کمپنی کی معلومات دینے میں بھی بے وقوف بنا سکتی ہے۔ چوری شدہ یا پیدا شدہ آوازیں فشنگ حملوں میں بھی استعمال کی جا سکتی ہیں جہاں لوگوں کو دھوکے سے رقم بھیجنے یا مخصوص بینک اکاؤنٹس میں منتقل کیا جاتا ہے۔

خلل ڈالنے والا اثر

2021 میں، ٹیلی کام کمپنی ہٹاچی اور جاپان کی یونیورسٹی آف سوکوبا کے محققین نے ایک AI ماڈل تیار کیا جو انسان جیسی تقریر کی نقل کر سکتا ہے، بشمول مختلف آڈیو پر مبنی جذباتی مارکر۔ تقریر کا مقصد ایک پیشہ ور دیکھ بھال کرنے والے کی طرح آواز دینا ہے۔ اس طرح کے ماڈلز کا مقصد روبوٹس یا آلات میں استعمال کیا جانا ہے جو ان افراد کے لیے صحبت، تعاون اور سمت پیش کر سکتے ہیں جنہیں اس کی ضرورت ہے۔ ٹیم نے اپنے AI ماڈل کو پہلے جذباتی تقریر کی مثالوں کے ساتھ کھلا کر سکھایا۔

اس کے بعد، جذبات کی شناخت کرنے والے کو احساس کی شناخت کے لیے تربیت دی جاتی ہے، اور جذباتی تقریر بنانے کے لیے تقریر کی ترکیب کا ماڈل تیار کیا جاتا ہے۔ جذبات کو پہچاننے والا اسپیچ سنتھیسائزر کی رہنمائی میں مدد کرتا ہے اس پر منحصر ہے کہ صارف کس احساس یا "ٹارگٹ ایموشن" کی توقع کرتا ہے یا اسے سننے کی ضرورت ہے۔ محققین نے اپنے ماڈل کو بوڑھے مریضوں پر آزمایا، اور اس کے نتیجے میں شرکاء دن کے وقت زیادہ توانا ہو گئے۔ مزید برآں، یہ ماڈل مریضوں کو پرسکون کر سکتا ہے اور انہیں رات کو سونے کے لیے راحت بخش سکتا ہے۔

اس دوران فلموں میں آواز کی ترکیب کا استعمال بھی بڑھتا جا رہا ہے۔ مثال کے طور پر، 2022 Netflix دستاویز سیریز، The Andy Warhol Diaries کے لیے مصنوعی آواز کا بیانیہ بنانے کے لیے، وائس جنریٹر فرم Resemble AI نے 3 اور 12 کی دہائیوں میں وارہول کی اصل آواز کی ریکارڈنگ کے 1970 منٹ اور 80 سیکنڈز پر کام کیا۔ فرم کی ٹیکنالوجی نے وارہول کی آواز کو ڈائریوں سے اپنے الفاظ سنانے کے لیے دوبارہ تخلیق کرنے کی اجازت دی، جس سے اس کی زندگی پر چھ حصوں پر مشتمل دستاویزی فلم بنائی گئی۔

ٹیم نے AI سے وارہول کی آواز کا پیدا کردہ آؤٹ پٹ لیا اور جذبات اور پچ کے لیے ایڈجسٹمنٹ کی۔ انہوں نے دوسرے اسپیکر کے آڈیو کلپس کا حوالہ دے کر انسانی جیسی خامیاں بھی شامل کیں۔ Resemble AI اس بات کا اعادہ کرتا ہے کہ کسی بھی آواز کی کلوننگ یا ترکیب کے منصوبے سے پہلے، کمپنی ہمیشہ آواز کے مالکان یا ان کے قانونی نمائندوں سے رضامندی طلب کرتی ہے۔ دستاویز سیریز کے لیے کمپنی نے اینڈی وارہول فاؤنڈیشن کی اجازت حاصل کی۔

تقریر کی ترکیب کے مضمرات

تقریر کی ترکیب کے وسیع مضمرات میں شامل ہو سکتے ہیں:

میڈیا کمپنیاں فلموں اور دستاویزی فلموں کے لیے فوت شدہ مشہور شخصیات کی آوازوں کو دوبارہ تخلیق کرنے کے لیے تقریر کی ترکیب کا استعمال کر رہی ہیں۔ تاہم، کچھ سامعین کو یہ غیر اخلاقی اور گھٹیا لگ سکتا ہے۔
صوتی کلوننگ سائبر کرائمز کے بڑھتے ہوئے واقعات، خاص طور پر مالیاتی خدمات کی صنعت میں۔
مشہور پینٹنگز اور تاریخی شخصیات کو زندہ کرنے کے لیے مصنوعی تقریر کا استعمال کرتے ہوئے لائیو پورٹریٹ فرم۔ یہ سروس خاص طور پر عجائب گھروں اور تعلیم کے شعبے کے لیے پرکشش ہے۔
پروپیگنڈہ پھیلانے اور لوگوں بالخصوص صحافیوں اور کارکنوں پر جھوٹے الزامات لگانے کے لیے ڈیپ فیک ویڈیوز میں تقریری ترکیب کا استعمال کیا جا رہا ہے۔
صوتی کلوننگ اور مصنوعی تقریر کی خدمات پر توجہ مرکوز کرنے والی مزید اسٹارٹ اپ فرمیں، بشمول مشہور شخصیات اور متاثر کن افراد جو اپنی آوازیں برانڈز کو کرائے پر دینا چاہتے ہیں۔
اعلی درجے کی تقریر کی ترکیب کے ذریعے ورچوئل اسسٹنٹس اور انٹرایکٹو گیمز میں بہتر حقیقت پسندی، صارف کے تجربے کو بہتر بناتا ہے لیکن AI سے جذباتی وابستگی پر خدشات کو بڑھاتا ہے۔
خودکار کسٹمر سروس میں تقریر کی ترکیب کو اپنانا، آپریشنز کو ہموار کرنا لیکن کال سینٹر انڈسٹری میں ممکنہ طور پر ملازمت کی نقل مکانی کا باعث بنتا ہے۔
سرکاری ایجنسیاں عوامی خدمت کے اعلانات کے لیے تقریری ترکیب کا فائدہ اٹھا رہی ہیں، کثیر لسانی اور لہجے سے متعلق مخصوص مواصلات کو فعال کرتی ہیں لیکن غلط استعمال یا غلط معلومات کو روکنے کے لیے محتاط نگرانی کی ضرورت ہوتی ہے۔