کوانتوم ران

اعتبار تصویر:

iStock

سنتز گفتار: ربات هایی که در نهایت می توانند احساسات را بیان کنند

فناوری سنتز گفتار فرصت‌های جدیدی را برای ربات‌های تعاملی بیشتر باز می‌کند.

نویسنده:
نام نویسنده
آینده نگاری کوانتوم ران
دسامبر 29، 2022

خلاصه بینش

در حالی که گفتار تولید شده توسط ماشین مدتی است که وجود داشته است، تنها از طریق پیشرفت در تشخیص و تولید گفتار است که کمتر روباتیک به نظر می رسد. برخی از شرکت‌ها از سنتز صدا و پیشرفت‌های شبیه‌سازی برای القای احساسات (یعنی لحن) به گفتار تولید شده توسط ماشین استفاده می‌کنند. پیامدهای بلندمدت ترکیب گفتار می تواند شامل بازآفرینی صداهای افراد مشهور و حتی محتوای عمیق جعلی قانع کننده تر باشد.

زمینه سنتز گفتار

گفتار مصنوعی توسط یک منبع غیرانسانی (مثلاً رایانه) تولید می‌شود و در عین حال صدای یک انسان را دوباره ایجاد می‌کند. این فناوری از دهه 1930 وجود داشت، زمانی که مهندس آکوستیک آمریکایی هومر دادلی اولین صداگذار (سینتی سایزر صدا) را ساخت. به تدریج، سیستم هایی شروع به ظهور کردند که از مدل های مخلوط گاوسی (GMM) برای بهبود کیفیت سنتز گفتار استفاده می کردند، البته نه سرعت. با این حال، پیشرفت در یادگیری عمیق (DL، یک روش یادگیری ماشینی) و هوش مصنوعی (AI) این فناوری را برای تولید مکالمات باورپذیرتر و با صدای طبیعی تر اصلاح کرده است. سنتز گفتار در درجه اول توسط دو فناوری شبکه های عصبی عمیق (DNN) پشتیبانی می شود: متن به گفتار (TTS) و تبدیل صدا (VC).

تبدیل متن به گفتار متن را به صدا تبدیل می کند، در حالی که VC می تواند صدای شخص را به تقلید از صدای دیگری تبدیل کند. این دو DDN اغلب در دستیارهای مجازی استفاده می‌شوند و می‌توانند صداها و مکالمات ظریف‌تری ایجاد کنند. سنتز گفتار می تواند مراقبان ربات تاکید بیشتری و دستیاران دیجیتالی خانه هوشمندتر ایجاد کند.

با این حال، از فناوری صدای مصنوعی نیز می توان برای حملات سایبری استفاده کرد. این فعالیت‌های متقلبانه، پرینت‌های صوتی افراد (نمونه‌های صوتی که به صورت دیجیتالی برای شناسایی بیومتریک آنها ذخیره می‌شوند) را برای نفوذ به سیستم‌ها و دستگاه‌ها کپی می‌کنند. شبیه سازی صوتی همچنین می تواند همکاران را فریب دهد تا رمز عبور و سایر اطلاعات حساس شرکت را ارائه دهند. از صداهای دزدیده شده یا تولید شده نیز می توان در حملات فیشینگ استفاده کرد که در آن افراد فریب داده می شوند تا پول ارسال کنند یا آن را به حساب های بانکی خاص منتقل کنند.

تاثیر مخرب

در سال 2021، محققان شرکت مخابراتی هیتاچی و دانشگاه تسوکوبای ژاپن یک مدل هوش مصنوعی توسعه دادند که می‌تواند گفتار انسان‌مانند، از جمله نشانگرهای احساسی مختلف مبتنی بر صدا را تقلید کند. این سخنرانی شبیه یک مراقب حرفه ای است. مدل‌هایی مانند این برای استفاده در ربات‌ها یا دستگاه‌هایی در نظر گرفته شده‌اند که ممکن است همراهی، پشتیبانی و هدایت را برای افرادی که به آن نیاز دارند ارائه دهند. این تیم ابتدا مدل هوش مصنوعی خود را با نمونه هایی از گفتار احساسی به آن آموزش دادند.

پس از آن، یک تشخیص دهنده احساسات برای شناسایی احساس آموزش داده می شود و یک مدل سنتز گفتار برای ایجاد گفتار عاطفی ایجاد می شود. تشخیص‌دهنده احساسات بسته به احساس یا «احساس هدف» که کاربر انتظار دارد یا نیاز به شنیدن دارد، به هدایت ترکیب‌کننده گفتار کمک می‌کند. محققان مدل خود را بر روی بیماران مسن آزمایش کردند و در نتیجه شرکت کنندگان در طول روز پرانرژی تر شدند. علاوه بر این، این مدل می تواند بیماران را آرام کند و آنها را به خواب شبانه آرام کند.

در همین حال، سنتز صدا نیز به طور فزاینده ای در فیلم ها استفاده می شود. به عنوان مثال، شرکت سازنده صدا Resemble AI برای ایجاد روایت صدای مصنوعی برای سریال مستند نتفلیکس ۲۰۲۲، The Andy Warhol Diaries، ۳ دقیقه و ۱۲ ثانیه از صدای ضبط شده اصلی وارهول در دهه‌های ۱۹۷۰ و ۸۰ را به کار گرفت. فناوری این شرکت باعث شد تا صدای وارهول برای بازخوانی کلمات خود از خاطرات، بازسازی شود و یک مستند شش قسمتی همه جانبه از زندگی او ایجاد شود.

این تیم خروجی تولید شده از صدای وارهول را از هوش مصنوعی گرفت و تنظیماتی را برای احساسات و تناسب انجام داد. آن‌ها همچنین با ارجاع به کلیپ‌های صوتی یک بلندگوی دیگر، عیوب انسان‌مانند را اضافه کردند. Resemble AI تکرار می کند که قبل از هر پروژه شبیه سازی یا سنتز صدا، این شرکت همیشه از صاحبان صدا یا نمایندگان قانونی آنها رضایت می خواهد. برای سریال مستند، این شرکت مجوز بنیاد اندی وارهول را گرفت.

پیامدهای سنتز گفتار

پیامدهای گسترده تر سنتز گفتار ممکن است شامل موارد زیر باشد:

شرکت‌های رسانه‌ای از ترکیب گفتار برای بازسازی صدای افراد مشهور درگذشته برای فیلم‌ها و مستندها استفاده می‌کنند. با این حال، برخی از مخاطبان ممکن است این را غیراخلاقی و نادرست بدانند.
افزایش حوادث مربوط به شبیه سازی صوتی جرایم سایبری، به ویژه در صنعت خدمات مالی.
شرکت‌های پرتره زنده که از گفتار مصنوعی استفاده می‌کنند تا نقاشی‌های معروف و شخصیت‌های تاریخی را زنده کنند. این سرویس به ویژه برای موزه ها و بخش آموزش جذاب است.
استفاده از ترکیب گفتار در ویدیوهای دیپ فیک برای گسترش تبلیغات و متهم کردن نادرست مردم، به ویژه روزنامه نگاران و فعالان.
شرکت‌های استارت‌آپ بیشتری که بر شبیه‌سازی صدا و خدمات گفتار مصنوعی متمرکز هستند، از جمله افراد مشهور و تأثیرگذارانی که می‌خواهند صدای خود را به برندها اجاره دهند.
افزایش واقع‌گرایی در دستیاران مجازی و بازی‌های تعاملی از طریق ترکیب گفتار پیشرفته، بهبود تجربه کاربر، اما افزایش نگرانی‌ها در مورد وابستگی عاطفی به هوش مصنوعی.
پذیرش سنتز گفتار در خدمات مشتری خودکار، عملیات را ساده می کند، اما به طور بالقوه منجر به جابجایی شغل در صنعت مرکز تماس می شود.
سازمان‌های دولتی از ترکیب گفتار برای اطلاعیه‌های خدمات عمومی استفاده می‌کنند، ارتباطات چندزبانه و لهجه‌ای خاص را امکان‌پذیر می‌کنند، اما برای جلوگیری از سوءاستفاده یا اطلاعات نادرست، به نظارت دقیق نیاز دارند.