Alexas etwas hölzerne Blechstimme klingt dank KI-Sprachsynthese jetzt viel menschlicher.

Statt wie bei der bisherigen Sprachsynthese einzelne Laute aus Sprachbeispielen zu Worten aneinanderzureihen, setzt Amazon zukünftig auf ein KI-gestütztes Text-zu-Sprache-Verfahren, genannt “neural text-to-speech” (NTTS).

Beim NTTS-Verfahren übersetzt ein spezialisiertes neuronales Netz Laute in ein Spektrogramm, also in eine grafische Darstellung eines Klangs. Diese Darstellung enthält detaillierte Parameter über die Intonation. Ein zweites neuronales Netzwerk setzt das Spektrogramm in zusammenhängendes Audio um.

Der KI-Ansatz schlägt die klassische Sprachsynthese deutlich: Alexa liest Nachrichten zukünftig auf dem Niveau einer professionellen Sprecherin vor. Die künstliche Stimme ist kaum mehr von einer menschlichen zu unterscheiden.

Herkömmliche Sprachsynthese:

KI-gestützte Sprachsynthese:

Um die typische Intonation einer Nachrichtensprecherin besser nachzustellen, wurde das neuronale Netzwerk laut Amazon mit einigen Stunden Tonmaterial einer menschlichen Nachrichtensprecherin trainiert.

KI-gestützte Sprachsynthese nach dem Sprachtraining:

Mit bisherigen Sprachsynthese-Verfahren war laut Amazons KI-Entwickler Trevor Wood eine authentisch klingende KI-Nachrichtensprecherin einfach nicht machbar.

“Es ist schwierig, die feinen Nuancen präzise in Worte zu fassen. Mit einem datenzentrierten Ansatz können wir sie leichter finden und generalisieren, als ein Mensch es könnte”, sagt Wood.

Mit der neuen Methode könne Amazon jetzt eine Reihe unterschiedlicher Sprachstile für Alexa in hoher Qualität bei geringem Trainingsaufwand anbieten.

Bei ersten Amazon-Nutzertests schnitt die neue KI-Stimme laut Woods deutlich besser ab als Alexas klassische Intonation. Sie erreichte fast so gute Werte wie eine richtige Nachrichtensprecherin.

Die künstliche Nachrichtensprecherin ist fast auf Augenhöhe mit der realen. Bild: Amazon

Die künstliche Nachrichtensprecherin ist bei Hörern fast so beliebt wie die reale. Bild: Amazon

Das Stimmen-Update soll in den kommenden Wochen ausrollen. Google setzt für die Telefon-KI Duplex sowie für den Google Assistant ebenfalls auf eine von Deepmind entwickelte KI-Sprachsynthese, die ähnlich funktioniert.

Weiterlesen über Sprach-KIs:

Quellen: The Verge / Amazon


Tagesaktuelle und redaktionell ausgewählte Tech- und VR-Deals: Zur Übersicht
VRODO-Podcast #120: Cebit-Erinnerungen, Duplex-Menschen und KI-Vorurteile | Alle Podcast-Folgen


Unsere Artikel enthalten vereinzelt sogenannte Affiliate-Links. Bei einem Kauf über einen dieser Links erhalten wir eine kleine Provision. Der Kaufpreis bleibt gleich.