მეტყველების სინთეზი: რობოტები, რომლებსაც შეუძლიათ საბოლოოდ გამოხატონ ემოციები

სურათის კრედიტი:
გამოსახულება საკრედიტო
iStock

მეტყველების სინთეზი: რობოტები, რომლებსაც შეუძლიათ საბოლოოდ გამოხატონ ემოციები

მეტყველების სინთეზი: რობოტები, რომლებსაც შეუძლიათ საბოლოოდ გამოხატონ ემოციები

ქვესათაური ტექსტი
მეტყველების სინთეზის ტექნოლოგია ახალ შესაძლებლობებს ხსნის უფრო ინტერაქტიული ბოტებისთვის.
    • ავტორი:
    • ავტორის სახელი
      Quantumrun Foresight
    • დეკემბერი 29, 2022

    Insight რეზიუმე

    მიუხედავად იმისა, რომ მანქანით გენერირებული მეტყველება დიდი ხანია არსებობს, მხოლოდ მეტყველების ამოცნობისა და გენერირების განვითარებით იწყება ის ნაკლებად რობოტულად ჟღერს. ზოგიერთი კომპანია იყენებს ხმის სინთეზს და კლონირების მიღწევებს ემოციების (ანუ ტონის) ჩასატარებლად მანქანით წარმოქმნილ მეტყველებაში. მეტყველების სინთეზის გრძელვადიანი შედეგები შეიძლება მოიცავდეს სახელგანთქმული ხმების ხელახლა შექმნას და კიდევ უფრო დამაჯერებელ ღრმა ყალბი შინაარსის.

    მეტყველების სინთეზის კონტექსტი

    სინთეზური მეტყველება წარმოიქმნება არაადამიანური წყაროდან (მაგ., კომპიუტერი) ადამიანის ხმის ხმის ხელახლა შექმნისას. ეს ტექნოლოგია არსებობდა 1930-იანი წლებიდან, როდესაც ამერიკელმა აკუსტიკური ინჟინერმა ჰომერ დადლიმ შექმნა პირველი ვოკოდერი (ხმის სინთეზატორი). თანდათანობით დაიწყეს გაჩენა სისტემები, რომლებიც იყენებდნენ Gaussian Mixture Models (GMM) მეტყველების სინთეზის ხარისხის გასაუმჯობესებლად, თუმცა არა სიჩქარის. თუმცა, ღრმა სწავლების (DL, მანქანათმცოდნეობის მეთოდი) და ხელოვნური ინტელექტის (AI) მიღწევებმა დახვეწა ტექნოლოგია უფრო დამაჯერებელი და ბუნებრივი ჟღერადობის საუბრების წარმოებისთვის. მეტყველების სინთეზს ძირითადად მხარს უჭერს ორი ღრმა ნერვული ქსელის (DNN) ტექნოლოგია: ტექსტი მეტყველებაში (TTS) და ხმის კონვერტაცია (VC). 

    ტექსტი მეტყველებაში გარდაქმნის ტექსტს ხმად, ხოლო VC-ს შეუძლია ადამიანის ხმის გარდაქმნა სხვისი ხმის მიბაძვით. ეს ორი DDN ხშირად გამოიყენება ვირტუალურ ასისტენტებში და შეუძლიათ შექმნან უფრო ნიუანსური ხმები და საუბრები. მეტყველების სინთეზს შეუძლია შექმნას უფრო ხაზგასმული რობოტები მომვლელები და უფრო ჭკვიანი ციფრული სახლის ასისტენტები. 

    თუმცა, სინთეტიკური ხმის ტექნოლოგია ასევე შეიძლება გამოყენებულ იქნას კიბერ შეტევებისთვის. ეს თაღლითური ქმედებები აკოპირებს ადამიანების ხმის ანაბეჭდებს (ხმის ნიმუშები, რომლებიც ციფრულად ინახება მათი ბიომეტრიული იდენტიფიკაციისთვის) სისტემებისა და მოწყობილობების შეღწევისთვის. ხმის კლონირებამ ასევე შეიძლება მოატყუოს კოლეგები მათი პაროლებისა და კომპანიის სხვა მგრძნობიარე ინფორმაციის მიწოდებაში. მოპარული ან გენერირებული ხმები ასევე შეიძლება გამოყენებულ იქნას ფიშინგის შეტევებში, სადაც ხალხს ატყუებენ ფულის გაგზავნაში ან კონკრეტულ საბანკო ანგარიშებზე გადარიცხვის მიზნით.

    დამრღვევი გავლენა

    2021 წელს, სატელეკომუნიკაციო კომპანია Hitachi-ს და იაპონიის უნივერსიტეტის Tsukuba-ს მკვლევარებმა შეიმუშავეს AI მოდელი, რომელსაც შეუძლია ადამიანის მსგავსი მეტყველების მიბაძვა, მათ შორის აუდიოზე დაფუძნებული სხვადასხვა ემოციური მარკერები. მეტყველება გამიზნულია, როგორც პროფესიონალი მომვლელი. მსგავსი მოდელები განკუთვნილია რობოტებში ან მოწყობილობებში გამოსაყენებლად, რომლებმაც შეიძლება შესთავაზონ თანამშრომლობა, მხარდაჭერა და მიმართულება მათთვის, ვისაც ეს სჭირდება. გუნდმა ასწავლა ხელოვნური ინტელექტის მოდელი, პირველ რიგში, ემოციური მეტყველების მაგალითებით.

    ამის შემდეგ, ემოციების ამომცნობი ივარჯიშება გრძნობის იდენტიფიცირებისთვის და ვითარდება მეტყველების სინთეზის მოდელი ემოციური მეტყველების შესაქმნელად. ემოციების ამომცნობი ეხმარება მეტყველების სინთეზატორის მართვაში იმისდა მიხედვით, თუ რა გრძნობა ან „სამიზნე ემოცია“ მოელის ან უნდა გაიგოს მომხმარებელი. მკვლევარებმა გამოსცადეს თავიანთი მოდელი ხანდაზმულ პაციენტებზე და შედეგად მონაწილეები უფრო ენერგიულები გახდნენ დღის განმავლობაში. გარდა ამისა, მოდელს შეეძლო პაციენტების დამშვიდება და ღამის ძილის დასამშვიდებლად.

    იმავდროულად, ხმის სინთეზი ასევე სულ უფრო ხშირად გამოიყენება ფილმებში. მაგალითად, 2022 წლის Netflix-ის დოკუმენტური სერიისთვის სინთეზური ხმის თხრობის შესაქმნელად, ენდი უორჰოლის დღიურები, ხმის გენერატორი ფირმა Resemble AI გამოიყენა 3 წუთი და 12 წამი უორჰოლის ორიგინალური ხმის ჩანაწერებიდან 1970-იან და 80-იან წლებში. ფირმის ტექნოლოგიამ საშუალება მისცა უორჰოლის ხმის ხელახლა წარმოთქმა მისი სიტყვების დღიურებიდან, შექმნა ექვსნაწილიანი იმერსიული დოკუმენტური ფილმი მისი ცხოვრების შესახებ.

    გუნდმა აიღო უორჰოლის ხმის გენერირებული გამომავალი ხელოვნური ინტელექტისგან და მოახდინა კორექტირება ემოციისა და სიმაღლისთვის. მათ ასევე დაამატეს ადამიანის მსგავსი ნაკლოვანებები სხვა დინამიკის აუდიო კლიპების მითითებით. Resemble AI იმეორებს, რომ ნებისმიერი ხმის კლონირების ან სინთეზის პროექტამდე, კომპანია ყოველთვის ითხოვს თანხმობას ხმის მფლობელებისგან ან მათი კანონიერი წარმომადგენლებისგან. დოკუმენტური სერიისთვის კომპანიამ მიიღო ენდი უორჰოლის ფონდის ნებართვა.

    მეტყველების სინთეზის შედეგები

    მეტყველების სინთეზის უფრო ფართო შედეგები შეიძლება მოიცავდეს: 

    • მედია კომპანიები იყენებენ მეტყველების სინთეზს, რათა ხელახლა შექმნან გარდაცვლილი ცნობილი ადამიანების ხმები ფილმებისთვის და დოკუმენტური ფილმებისთვის. თუმცა, ზოგიერთმა აუდიტორიამ შეიძლება ეს არაეთიკური და შეურაცხმყოფელი აღმოჩნდეს.
    • გაიზარდა ხმოვანი კლონირების კიბერდანაშაულის შემთხვევები, განსაკუთრებით ფინანსური მომსახურების ინდუსტრიაში.
    • ცოცხალი პორტრეტების ფირმები, რომლებიც იყენებენ სინთეზურ მეტყველებას ცნობილი ნახატებისა და ისტორიული ფიგურების გასაცოცხლებლად. ეს სერვისი განსაკუთრებით მიმზიდველია მუზეუმებისთვის და განათლების სექტორისთვის.
    • მეტყველების სინთეზი გამოიყენება ღრმა ფეიკ ვიდეოებში პროპაგანდის გასავრცელებლად და ადამიანების, განსაკუთრებით ჟურნალისტებისა და აქტივისტების ცრუ ბრალდებისთვის.
    • უფრო მეტი სტარტაპ ფირმა, რომელიც ფოკუსირებულია ხმის კლონირებასა და მეტყველების სინთეზურ სერვისებზე, მათ შორის ცნობილი ადამიანებისა და გავლენიანი ადამიანების ჩათვლით, რომლებსაც სურთ თავიანთი ხმების დაქირავება ბრენდებზე.
    • გაძლიერებული რეალიზმი ვირტუალურ ასისტენტებსა და ინტერაქტიულ თამაშებში მეტყველების გაფართოებული სინთეზით, მომხმარებლის გამოცდილების გაუმჯობესებით, მაგრამ აჩენს შეშფოთებას AI-სთან ემოციურ მიჯაჭვულობასთან დაკავშირებით.
    • მეტყველების სინთეზის მიღება მომხმარებელთა ავტომატიზირებულ სერვისში, ოპერაციების გამარტივება, მაგრამ პოტენციურად იწვევს სამუშაოს გადაადგილებას ქოლ-ცენტრის ინდუსტრიაში.
    • სამთავრობო უწყებები იყენებენ მეტყველების სინთეზს საჯარო სერვისების განცხადებებისთვის, რაც საშუალებას აძლევს მრავალენოვან და სპეციფიკურ კომუნიკაციას, მაგრამ საჭიროებს ფრთხილად ზედამხედველობას, რათა თავიდან აიცილოს არასწორი გამოყენება ან დეზინფორმაცია.

    კითხვები გასათვალისწინებელია

    • რა სხვა პოტენციური სარგებელი მოაქვს უფრო ადამიანური ჟღერადობის ბოტებს?
    • სხვაგვარად როგორ შეუძლიათ კიბერკრიმინალებს მეტყველების სინთეზის გამოყენება?