dc.contributor.advisor |
Baayen, R. Harald (Prof. Dr.) |
|
dc.contributor.author |
Sering, Konstantin Florian |
|
dc.date.accessioned |
2023-12-21T08:33:03Z |
|
dc.date.available |
2023-12-21T08:33:03Z |
|
dc.date.issued |
2023-12-21 |
|
dc.identifier.uri |
http://hdl.handle.net/10900/148802 |
|
dc.identifier.uri |
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1488024 |
de_DE |
dc.identifier.uri |
http://dx.doi.org/10.15496/publikation-90142 |
|
dc.description.abstract |
Das Predictive Articulatory speech synthesis Utilizing Lexical Embeddings (PAULE)
Modell ist ein neues Modell zur Kontrolle des artikulatorischen Sprachsynthesizers
VocalTractLab (VTL) [15] . Mit PAULE lassen sich deutsche Wörter synthetisieren. Die
Wortsynthese kann entweder mit Hilfe eines semantischen Vektors, der die Wortbedeu-
tung kodiert, und der gewünschten Dauer der Wortsynthese gestartet werden oder es
kann eine Resynthese von einer Audiodatei gemacht werden. Die Audiodatei kann
beliebige Aufnahmen von Sprecher:innen enthalten, wobei die Resynthese immer über
den Standardsprecher des VTL erfolgt. Abhängig von der Wortbedeutung und der
Audiodatei variiert die Synthesequalität.
Neu an PAULE ist, dass es einen prädiktiven Ansatz verwendet, indem es aus
der geplanten Artikulation die dazugehörige perzeptuelle Akustik vorhersagt und
daraus die Wortbedeutung ableitet. Sowohl die Akustik als auch die Wortbedeutung
sind als metrische Vektorräume implementiert. Dadurch lässt sich ein Fehler zu einer
gewünschten Zielakustik und Zielbedeutung berechnen und minimieren. Bei dem
minimierten Fehler handelt es sich nicht um den tatsächlichen Fehler, der aus der
Synthese mit dem VTL entsteht, sondern um den Fehler, der aus den Vorhersagen eines
prädiktiven Modells generiert wird. Obwohl es nicht der tatsächliche Fehler ist, kann
dieser Fehler genutzt werden, um die tatsächliche Artikulation zu verbessern. Um das
prädiktive Modell mit der tatsächlichen Akustik in Einklang zu bringen, hört sich PAULE
selbst zu.
Ein in der Sprachsynthese zentrales Eins-Zu-Viele-Problem ist, dass eine Akustik durch
viele verschiedene Artikulationen erzeugt werden kann. Dieses Eins-Zu-Viele-Problem
wird durch die Vorhersagefehlerminimierung in PAULE aufgelöst, zusammen mit der
Bedingung, dass die Artikulation möglichst stationär und mit möglichst konstanter Kraft
ausgeführt wird. PAULE funktioniert ohne jegliche symbolische Repräsentation in der
Akustik (Phoneme) und in der Artikulation (motorische Gesten oder Ziele). Damit zeigt
PAULE, dass sich gesprochene Wörter ohne symbolische Beschreibungsebene model-
lieren lassen. Der gesprochenen Sprache könnte daher im Vergleich zur geschriebenen
Sprache eine fundamental andere Verarbeitungsebene zugrunde liegen. PAULE integriert
Erfahrungswissen sukzessive. Damit findet PAULE nicht die global beste Artikulation
sondern lokal gute Artikulationen. Intern setzt PAULE auf künstliche neuronale Netze
und die damit verbundenen Gradienten, die zur Fehlerkorrektur verwendet werden.
PAULE kann weder ganze Sätze synthetisieren noch wird somatosensorisches Feedback berücksichtigt. Zu Beidem gibt es Vorarbeiten, die in zukünftige Versionen integriert
werden sollen. |
de_DE |
dc.description.abstract |
The Predictive Articulatory speech synthesis Utilizing Lexical Embeddings (PAULE)
model is a new control model for the VocalTractLab (VTL) [15] speech synthesizer, a simulator of the human speech system. It is capable of synthesizing single words in the German language. The speech synthesis can be based on a target semantic vector or on target acoustics, i.e., a recorded word token. VTL is controlled by 30 parameters. These parameters have to be estimated for each time point during the production of a word, which is roughly every 2.5 milliseconds. The time-series of these 30 control parameters (cps) of the VTL are the control parameter trajectories (cp-trajectories). The high dimensionality of the cp-trajectories in combination with non-linear interactions leads to a many-to-one mapping problem, where many sets of cp-trajectories produce highly similar synthesized audio.
PAULE solves this many-to-one mapping problem by anticipating the effects of cp-
trajectories and minimizing a semantic and acoustic error between this nticipation
and a targeted meaning and acoustics. The quality of the anticipation is improved by an outer loop, where PAULE listens to itself. PAULE has three central design features that distinguish it from other control models: First, PAULE does not use any symbolic units, neither motor primitives, articulatory targets, or gestural scores on the movement side, nor any phone or syllable representation on the acoustic side. Second, PAULE is a learning model that accumulates experience with articulated words. As a consequence, PAULE will not find a global optimum for the inverse kinematic optimization task it has to solve. Instead, it finds a local optimum that is conditioned on its past experience. Third, PAULE uses gradient-based internal prediction errors of a predictive forward model to plan cp-trajectories for a given semantic or acoustic target. Thus, PAULE is an
error-driven model that takes its previous experiences into account.
Pilot study results indicate that PAULE is able to minimize an acoustic semantic and acoustic error in the resynthesized audio. This allows PAULE to find cp-trajectories that are correctly classified by a classification model as the correct word with an accuracy of 60 %, which is close to the accuracy for human recordings of 63 %. Furthermore, PAULE seems to model vowel-to-vowel anticipatory coarticulation in terms of formant shifts correctly and can be compared to human electromagnetic articulography (EMA) recordings in a straightforward way. Furthermore, with PAULE it is possible to condition
on already executed past cp-trajectories and to smoothly continue the cp-trajectories from the current state. As a side-effect of developing PAULE, it is possible to create large amounts of training data for the VTL through an automated segment-based approach.
Next steps, in the development of PAULE, include adding a somatosensory feedback channel, extending PAULE from producing single words to the articulation of small utterances and adding a thorough evaluation. |
en |
dc.language.iso |
en |
de_DE |
dc.publisher |
Universität Tübingen |
de_DE |
dc.rights |
ubt-podok |
de_DE |
dc.rights.uri |
http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de |
de_DE |
dc.rights.uri |
http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en |
en |
dc.subject.classification |
Artikulation , Artikulatorische Phonetik , Phonetik , Kognition , Modellierung , Sprachproduktion , Sprache , Semantik , Bedeutung |
de_DE |
dc.subject.ddc |
000 |
de_DE |
dc.subject.ddc |
004 |
de_DE |
dc.subject.ddc |
400 |
de_DE |
dc.title |
Predictive Articulatory speech synthesis Utilizing Lexical Embeddings (PAULE) |
en |
dc.type |
PhDThesis |
de_DE |
dcterms.dateAccepted |
2023-10-16 |
|
utue.publikation.fachbereich |
Informatik |
de_DE |
utue.publikation.fakultaet |
7 Mathematisch-Naturwissenschaftliche Fakultät |
de_DE |
utue.publikation.noppn |
yes |
de_DE |