0

Neue Sprachsynthese: Google-KI klingt jetzt wie ein Mensch

von Matthias Bastian2. Januar 2018

Die Akzeptanz KI-gestützter persönlicher Assistenzsysteme dürfte steigen, wenn diese wie echte Menschen klingen. Google macht einen großen Schritt dahin: Die neueste synthetische Sprachausgabe ist klanglich kaum mehr als Roboterstimme zu erkennen.

Googles neue Klang-KI Tacotron 2 nutzt ein visuelles Text-zu-Sprache-Verfahren. In einem ersten Schritt erstellt das System ein Spektrogramm, das ist eine grafische Darstellung eines Klangs. Es enthält Tonhöhen und weitere Parameter, die auf die korrekte Aussprache hinweisen.

Das Spektrogramm wird anschließend von Deepminds neuronalem Netz Wavenet in Sprache verwandelt. Die Software ist darauf spezialisiert, anhand solcher Graphen Töne zu erzeugen und wird seit Oktober 2017 für die Stimme des Google Assistenten eingesetzt.

Trainiert wurde Tacotron 2 mit 24 Stunden Tonmaterial einer professionellen Sprecherin. Die Resultate klingen so authentisch, dass sie im Grunde nicht mehr von realen Sprachaufnahmen zu unterscheiden sind.

 

Google verrät nicht, welches Audiobeispiel generiert und welches menschlichen Ursprungs ist, versteckt aber einen Hinweis im Dateinamen: Die erste Audiodatei trägt das Kürzel “GT” im Namen, in der KI-Sprache steht das für “Ground Truth” und meint die reale Vorlage. Die zweite Datei hat ein “Gen” im Namen, was für “Generated” steht.

Betonungen ja, Emotionen nein

Die neue Klang-KI bietet eine verbesserte Intonation für einen natürlicheren Sprachfluss und berücksichtigt bei der Betonung den Schreibstil und die Position von Wörtern im Satz. Steht beispielsweise ein Fragezeichen am Satzende, geht die Stimme korrekt nach oben.

 

Basierend auf der Groß- und Kleinschreibung passt das System ebenfalls die Wortbetonungen an. Beispiel: “The buses aren’t the PROBLEM, they actually provide a SOLUTION.” Die Wörter “Problem” und “Solution” werden aufgrund der Versalschreibweise stärker betont.

 

Laut den Google-Forschern kann die KI relativ großzügig über Schreibfehler hinweglesen, so wird zum Beispiel der falsch geschriebene Satz “Thisss isrealy awhsome” korrekt vorgetragen.

Die Forscher evaluierten Tacotron 2 mit dem sogenannten “Mean Opinion Score” und erzielten auf einer Skala von 1 bis 5 einen Wert von 4,525 – eine reale Sprachaufnahme eines Menschen erreicht im Schnitt einen Wert von 4,58.

Aber es gibt noch Defizite: Laut den Forschern ist die KI-Stimme noch nicht dazu in der Lage, Emotionen im Klang der Stimme auszudrücken und hat Probleme bei einzelnen Fremdwörtern. Außerdem funktioniert die Sprachausgabe noch nicht in Echtzeit. Zumindest klanglich scheint jedoch die Grundlage gelegt für sinnliche KI-Erlebnisse, wie sie der Sci-Fi-Film “Her” beschreibt.

Tacotron 2 wurde von Google in Zusammenarbeit mit der Universität Kalifornien, Berkeley entwickelt. Weitere Tonbeispiele gibt es auf dieser Webseite, die vollständige Publikation ist hier einsehbar. Wann die neue Sprachsynthese ihren Weg in ein Google-Produkt findet, ist nicht bekannt.

Empfohlene Artikel: