Quantenlauf

IMAGE CREDIT:

iStock

Sprachsynthese: Roboter, die endlich Emotionen ausdrücken können

Die Sprachsynthese-Technologie eröffnet neue Möglichkeiten für mehr interaktive Bots.

Autor:
Autorenname
Quantumrun-Vorausschau
29. Dezember 2022

Zusammenfassung der Einblicke

Zwar gibt es maschinell generierte Sprache schon seit einiger Zeit, aber erst durch die Entwicklungen in der Spracherkennung und -generierung klingt sie allmählich weniger roboterhaft. Einige Unternehmen nutzen Fortschritte bei der Sprachsynthese und beim Klonen, um Emotionen (z. B. Ton) in maschinengenerierte Sprache zu übertragen. Zu den langfristigen Auswirkungen der Sprachsynthese könnte die Nachbildung von Prominentenstimmen und noch überzeugenderer Deepfake-Inhalte gehören.

Kontext der Sprachsynthese

Synthetische Sprache wird von einer nichtmenschlichen Quelle (z. B. einem Computer) erzeugt, während der Klang einer menschlichen Stimme nachgebildet wird. Diese Technologie existierte seit den 1930er Jahren, als der amerikanische Akustikingenieur Homer Dudley den ersten Vocoder (Sprachsynthesizer) konstruierte. Allmählich tauchten Systeme auf, die Gaussian Mixture Models (GMM) verwendeten, um die Qualität der Sprachsynthese zu verbessern, jedoch nicht die Geschwindigkeit. Fortschritte beim Deep Learning (DL, eine maschinelle Lernmethode) und der künstlichen Intelligenz (KI) haben die Technologie jedoch verfeinert, um glaubwürdigere und natürlicher klingende Gespräche zu führen. Die Sprachsynthese wird hauptsächlich von zwei Deep Neural Networks (DNN)-Technologien unterstützt: Text-to-Speech (TTS) und Voice Conversion (VC).

Text-to-Speech wandelt Text in Sprache um, während VC die Stimme einer Person so umwandeln kann, dass sie die einer anderen nachahmt. Diese beiden DDNs werden häufig in virtuellen Assistenten verwendet und können nuanciertere Stimmen und Gespräche erzeugen. Sprachsynthese kann einfühlsamere Pflegeroboter und intelligentere digitale Heimassistenten hervorbringen.

Synthetische Sprachtechnologie kann jedoch auch für Cyberangriffe verwendet werden. Diese betrügerischen Aktivitäten kopieren die Stimmabdrücke von Personen (Stimmproben, die digital gespeichert werden, um als ihre biometrische Identifizierung zu dienen), um Systeme und Geräte zu infiltrieren. Voice Cloning kann auch Kollegen dazu verleiten, ihre Passwörter und andere vertrauliche Unternehmensinformationen preiszugeben. Gestohlene oder generierte Stimmen können auch bei Phishing-Angriffen verwendet werden, bei denen Personen dazu verleitet werden, Geld zu senden oder auf bestimmte Bankkonten zu überweisen.

Störende Wirkung

Im Jahr 2021 entwickelten Forscher des Telekommunikationsunternehmens Hitachi und der japanischen Universität Tsukuba ein KI-Modell, das menschenähnliche Sprache nachahmen kann, einschließlich verschiedener audiobasierter emotionaler Marker. Die Rede soll wie eine professionelle Pflegekraft klingen. Modelle wie dieses sind für den Einsatz in Robotern oder Geräten gedacht, die Personen, die dies benötigen, Begleitung, Unterstützung und Anleitung bieten können. Das Team trainierte sein KI-Modell, indem es es zunächst mit Beispielen emotionaler Sprache fütterte.

Anschließend wird ein Emotionserkenner darauf trainiert, das Gefühl zu identifizieren, und ein Sprachsynthesemodell wird entwickelt, um emotionale Sprache zu erzeugen. Der Emotionserkenner hilft dabei, den Sprachsynthesizer abhängig davon zu steuern, welches Gefühl oder welche „Zielemotion“ der Benutzer erwartet oder hören muss. Die Forscher testeten ihr Modell an älteren Patienten und die Teilnehmer waren dadurch tagsüber energiegeladener. Darüber hinaus könnte das Modell die Patienten beruhigen und sie nachts in den Schlaf versetzen.

Mittlerweile wird die Sprachsynthese auch zunehmend in Filmen eingesetzt. Um beispielsweise die synthetische Spracherzählung für die Netflix-Dokuserie „The Andy Warhol Diaries“ aus dem Jahr 2022 zu erstellen, verwendete die Sprachgeneratorfirma Resemble AI 3 Minuten und 12 Sekunden von Warhols Original-Sprachaufnahmen aus den 1970er und 80er Jahren. Die Technologie des Unternehmens ermöglichte es, Warhols Stimme nachzubilden, um seine eigenen Worte aus den Tagebüchern zu rezitieren, wodurch eine sechsteilige, immersive Dokumentation über sein Leben entstand.

Das Team übernahm die generierte Ausgabe von Warhols Stimme von der KI und nahm Anpassungen für Emotion und Tonhöhe vor. Sie fügten auch menschenähnliche Unvollkommenheiten hinzu, indem sie auf Audioclips eines anderen Sprechers verwiesen. Resemble AI bekräftigt, dass das Unternehmen vor jedem Projekt zum Klonen oder Synthetisieren von Stimmen stets die Zustimmung der Stimmeigentümer oder ihrer gesetzlichen Vertreter einholt. Für die Doku-Serie holte das Unternehmen die Genehmigung der Andy Warhol Foundation ein.

Auswirkungen der Sprachsynthese

Weitere Auswirkungen der Sprachsynthese können sein:

Medienunternehmen verwenden Sprachsynthese, um die Stimmen verstorbener Prominenter für Filme und Dokumentationen nachzubilden. Einige Zielgruppen könnten dies jedoch als unethisch und abstoßend empfinden.
Erhöhte Fälle von Cyberkriminalität durch Klonen von Stimmen, insbesondere in der Finanzdienstleistungsbranche.
Live-Porträtfirmen, die synthetische Sprache verwenden, um berühmte Gemälde und historische Persönlichkeiten zum Leben zu erwecken. Dieser Service ist besonders attraktiv für Museen und den Bildungsbereich.
Sprachsynthese wird in Deepfake-Videos verwendet, um Propaganda zu verbreiten und Menschen, insbesondere Journalisten und Aktivisten, fälschlicherweise zu beschuldigen.
Mehr Startup-Firmen, die sich auf das Klonen von Stimmen und synthetische Sprachdienste konzentrieren, darunter Prominente und Influencer, die ihre Stimmen an Marken vermieten möchten.
Verbesserter Realismus in virtuellen Assistenten und interaktiven Spielen durch fortschrittliche Sprachsynthese, was das Benutzererlebnis verbessert, aber Bedenken hinsichtlich der emotionalen Bindung an KI aufkommen lässt.
Einführung der Sprachsynthese im automatisierten Kundenservice, was zu einer Rationalisierung der Abläufe führt, aber möglicherweise zu einer Verdrängung von Arbeitsplätzen in der Callcenter-Branche führt.
Regierungsbehörden nutzen die Sprachsynthese für öffentliche Bekanntmachungen, was eine mehrsprachige und akzentspezifische Kommunikation ermöglicht, aber eine sorgfältige Überwachung erfordert, um Missbrauch oder Fehlinformationen zu verhindern.