Quantumrun

د انځور کریډیټ:

ایسته

د وینا ترکیب: روبوټ چې په پای کې احساسات څرګندولی شي

د وینا ترکیب ټیکنالوژي د ډیرو متقابلو بوټو لپاره نوي فرصتونه پرانیزي.

لیکونکی:
د لیکوال نوم
Quantumrun وړاندوینه
د دسمبر په 29، 2022

د بصیرت لنډیز

پداسې حال کې چې د ماشین لخوا رامینځته شوې وینا د یو څه مودې لپاره شاوخوا وه ، دا یوازې د وینا پیژندنې او نسل کې پرمختګونو له لارې دی چې دا لږ روبوټیک غږ پیل کوي. ځینې شرکتونه د غږ ترکیب او کلوننګ پرمختګونه کاروي ترڅو احساسات (د بیلګې په توګه ټون) د ماشین لخوا رامینځته شوي وینا کې جذب کړي. د وینا ترکیب اوږدمهاله اغیزو کې د مشهور شخصیتونو غږونه او حتی ډیر قانع کونکي ژور جعلي مینځپانګې شامل کیدی شي.

د وینا ترکیب شرایط

مصنوعي وینا د غیر انساني سرچینې (د بیلګې په توګه، کمپیوټر) لخوا رامینځته کیږي پداسې حال کې چې د انسان غږ غږ بیا رامینځته کوي. دا ټیکنالوژي د 1930 لسیزې راهیسې شتون درلود کله چې امریکایی اکوسټیک انجینر هومر ډوډلي لومړی ووکوډر (د غږ ترکیب) جوړ کړ. په تدریج سره، سیسټمونه راڅرګندیدل پیل کړل چې د ګاسین مخلوط ماډلونه (GMM) د وینا ترکیب کیفیت ښه کولو لپاره کارول کیږي، که څه هم سرعت نه. په هرصورت، د ژورې زده کړې پرمختګ (DL، د ماشین زده کړې طریقه) او مصنوعي استخبارات (AI) د باور وړ او طبیعي غږیز خبرو اترو تولیدولو لپاره ټیکنالوژي اصلاح کړې. د وینا ترکیب اساسا د دوه ژورو عصبي شبکو (DNN) ټیکنالوژیو لخوا ملاتړ کیږي: له متن څخه وینا (TTS) او د غږ تبادله (VC).

له متن څخه وینا متن په غږ بدلوي، پداسې حال کې چې VC کولی شي د یو شخص غږ د بل چا نقل کولو لپاره بدل کړي. دا دوه DDNs اکثرا په مجازی معاونینو کې کارول کیږي، او کولی شي ډیر لنډ غږونه او خبرې اترې رامینځته کړي. د وینا ترکیب کولی شي ډیر قوي روبوټ پاملرنې کونکي او سمارټ ډیجیټل کور معاون رامینځته کړي.

په هرصورت، مصنوعي غږ ټیکنالوژي هم د سایبر بریدونو لپاره کارول کیدی شي. دا درغلۍ فعالیتونه د خلکو غږ نښې (د غږ نمونې چې په ډیجیټل ډول د دوی د بایومتریک پیژندنې په توګه زیرمه شوي) کاپي کوي ترڅو سیسټمونو او وسایلو ته نفوذ وکړي. د غږ کلون کول کولی شي همکاران د دوی د پاسورډونو او نورو حساسو شرکتونو معلوماتو په ورکولو کې غولوي. غلا شوي یا تولید شوي غږونه د فشینګ بریدونو کې هم کارول کیدی شي چیرې چې خلک د پیسو لیږلو یا ځانګړي بانکي حسابونو ته لیږدولو کې دوکه کیږي.

ګډوډي اغیزې

په 2021 کې، د مخابراتو شرکت هیتاچي او د جاپان د سوکوبا پوهنتون څیړونکو د AI ماډل رامینځته کړ چې کولی شي د انسان په څیر وینا تقلید کړي ، پشمول د مختلف آډیو پراساس احساساتي نښه کونکي. وینا د مسلکي پاملرنې کونکي په څیر غږ کول دي. د دې په څیر ماډلونه په روبوټونو یا وسیلو کې کارول کیږي چې ممکن د اشخاصو لپاره ملګرتیا ، ملاتړ او لارښود وړاندیز وکړي څوک چې ورته اړتیا لري. ټیم خپل AI ماډل لومړی د احساساتي وینا مثالونو سره تغذیه کولو سره زده کړل.

له هغې وروسته، د احساس پیژندلو لپاره روزل کیږي، او د وینا ترکیب ماډل رامینځته شوی ترڅو احساساتي وینا رامینځته کړي. د احساس پیژندونکی د وینا ترکیب کونکي لارښود کې مرسته کوي پدې پورې اړه لري چې کوم احساس یا "د هدف احساس" کارونکي تمه لري یا اوریدلو ته اړتیا لري. څیړونکو خپل ماډل د زړو ناروغانو په اړه ازموینه وکړه، او برخه اخیستونکي د ورځې په جریان کې د پایلې په توګه ډیر ځواکمن شول. سربیره پردې ، ماډل کولی شي ناروغان آرام کړي او د شپې خوب ته یې راحته کړي.

په ورته وخت کې، د غږ ترکیب هم په فلمونو کې په زیاتیدونکي توګه کارول کیږي. د مثال په توګه، د 2022 Netflix اسنادو لړۍ لپاره د مصنوعي غږ داستان رامینځته کولو لپاره، د انډي وارهول ډایریز، د غږ جنراتور شرکت Resemble AI د 3 او 12 لسیزو څخه د وارهول اصلي غږ ریکارډونو 1970 دقیقې او 80 ثانیې ګمارلې. د شرکت ټیکنالوژۍ د وارهول غږ ته اجازه ورکړه چې د هغه د ژوندلیکونو څخه د هغه د خپلو الفاظو تلاوت کولو لپاره بیا جوړ شي، د هغه د ژوند په اړه شپږ برخې مستند مستند فلم جوړ کړي.

ټیم د AI څخه د وارهول غږ تولید شوی محصول اخیستی او د احساساتو او پیچ لپاره یې تنظیمات کړي. دوی د بل سپیکر آډیو کلیپونو په حواله کولو سره د انسان په څیر نیمګړتیاوې هم اضافه کړې. ریسمبل AI بیا ټینګار کوي چې د غږ کلون کولو یا ترکیب پروژې دمخه ، شرکت تل د غږ مالکینو یا د دوی قانوني استازو څخه رضایت غوښتنه کوي. د اسنادو لړۍ لپاره، شرکت د انډي وارول فاؤنڈیشن اجازه ترلاسه کړه.

د وینا ترکیب اغیزې

د وینا ترکیب پراخې اغیزې کېدای شي پدې کې شامل وي:

د رسنیو شرکتونه د وینا ترکیب کاروي ترڅو د فلمونو او مستند فلمونو لپاره د مړو مشهورو شخصیتونو غږونه بیا رامینځته کړي. په هرصورت، ځینې لیدونکي ممکن دا غیر اخلاقي او بې رحمه ومومي.
د غږ کلون کولو سایبر جرمونو ډیری پیښې، په ځانګړې توګه د مالي خدماتو صنعت کې.
د ژوندي انځورونو شرکتونه مصنوعي وینا کاروي ترڅو مشهور نقاشي او تاریخي شخصیتونه ژوند ته راوړي. دا خدمت په ځانګړي توګه د موزیمونو او تعلیم سکتور لپاره په زړه پوری دی.
د وینا ترکیب په ژورو جعلي ویډیوګانو کې د پروپاګند خپرولو او په خلکو په ځانګړي ډول ژورنالیستانو او فعالانو باندې د دروغو تور لګولو لپاره کارول کیږي.
ډیر پیل شوي شرکتونه چې د غږ کلون کولو او مصنوعي وینا خدماتو باندې تمرکز کوي ، پشمول د مشهور شخصیتونو او نفوذ کونکو په شمول چې غواړي خپل غږونه برانڈونو ته کرایه کړي.
د پرمختللي وینا ترکیب له لارې په مجازی معاونینو او متقابلو لوبو کې ریالیزم ته وده ورکول ، د کارونکي تجربه ښه کوي مګر د AI سره د احساساتي تړاو په اړه اندیښنې راپورته کوي.
په اتوماتیک پیرودونکي خدماتو کې د وینا ترکیب غوره کول، عملیات ساده کول مګر په بالقوه توګه د کال مرکز صنعت کې د دندې بې ځایه کیدو لامل کیږي.
دولتي ادارې د عامه خدماتو اعلانونو لپاره د وینا ترکیب څخه ګټه پورته کوي، څو ژبني او تلفظ ځانګړي ارتباطات فعالوي مګر د ناسمې ګټې اخیستنې یا غلط معلوماتو مخنیوي لپاره محتاط نظارت ته اړتیا لري.