Algorithmic advancements in Computational Historical Linguistics

Wahle, Johannes

Publikationsdienste
→
TOBIAS-lib - Publikationen und Dissertationen
→
5 Philosophische Fakultät
→
Dokumentanzeige

dc.contributor.advisor	Jäger, Gerhard (Prof. Dr.)
dc.contributor.author	Wahle, Johannes
dc.date.accessioned	2021-09-09T09:17:01Z
dc.date.available	2021-09-09T09:17:01Z
dc.date.issued	2021-09-09
dc.identifier.uri	http://hdl.handle.net/10900/118701
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1187018	de_DE
dc.identifier.uri	http://dx.doi.org/10.15496/publikation-60075
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1187016	de_DE
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1187012	de_DE
dc.description.abstract	Computergestützte Methoden in der historischen Linguistik haben in den letzten Jahren einen großen Aufschwung erlebt. Die wachsende Verfügbarkeit maschinenlesbarer Daten förderten diese Entwicklung ebenso wie die zunehmende Leistungsfähigkeit von Computern. Die in dieser Forschung verwendeten Berechnungsmethoden stammen aus verschiedenen wissenschaftlichen Disziplinen, wobei Methoden aus der Bioinformatik sicherlich die Initialzündung gaben. Diese Arbeit, die sich von Fortschritten in angrenzenden Gebieten inspirieren lässt, zielt darauf ab, die bestehenden Berechnungsmethoden in verschiedenen Bereichen der computergestützten historischen Linguistik zu verbessern. Mit Hilfe von Fortschritten aus der Forschung aus dem maschinellen Lernen und der Computerlinguistik wird hier eine neue Trainingsmethode für Algorithmen zur Kognatenerkennung vorgestellt. Diese Methode erreicht an vielen Stellen die besten Ergebnisse im Bereich der Kognatenerkennung. Außerdem kann das neue Trainingsschema die Rechenzeit erheblich verbessern. Ausgehend von diesen Ergebnissen wird eine neue Kombination von Methoden der Bioinformatik und der historischen Linguistik entwickelt. Durch die Definition eines expliziten Modells der Lautevolution wird der Begriff der evolutionären Zeit in die Kognatenerkennung mit einbezogen. Die sich daraus ergebenden posterioren Verteilungen werden verwendet, um das Modell anhand einer standardmäßigen Kognatenerkennung zu evaluieren. Eine weitere klassische Problemstellung in der pyhlogenetischen Forschung ist die Inferenz eines Baumes. Aktuelle Methoden, die den ``quasi-industriestandard'' bilden, verwenden den klassischen Metropolis-Hastings-Algorithmus. Allerdings ist bekannt, dass dieser Algorithmus für hochdimensionale und korrelierte Daten vergleichsweise ineffizient ist. Um dieses Problem zu beheben, wird im letzten Kapitel ein Algorithmus vorgestellt, der die Hamilton'sche Dynamik verwendet.	de_DE
dc.description.abstract	The use of computational methods in historical linguistics has seen a large boost in recent years. An increasing availability of machine readable data and the growing power of computers fostered this development. While the computational methods which are used in this research stem from different scientific disciplines, a lot of tools from computational biology have found their way into this research. Drawing inspiration from advancements in related fields, this thesis aims at improving existing computational methods in different disciplines of computational historical linguistics. Using advancements from machine learning and natural language processing research, I present an updated training regime for cognate detection algorithms. Besides achieving state of the art performance in a cognate clustering task, the updated training scheme considerably improved computation time. Following up on these results, I develop a novel combination of tools from bioinformatics and historical linguistics is developed. By defining an explicit model of sound evolution, I include the notion of evolutionary time into a cognate detection task. The resulting posterior distributions are used to evaluate the model on a standard cognate detection task. A standard problem in phylogenetic research is the inference of a tree. Current quasi "industry-standard" methods use the classical Metropolis-Hastings algorithm. However, this algorithm is known to be rather inefficient for high dimensional and correlated data. To solve this problem, I present an algorithm which uses Hamiltonian dynamics in the last chapter.	en
dc.language.iso	en	de_DE
dc.publisher	Universität Tübingen	de_DE
dc.rights	ubt-podok	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en	en
dc.subject.classification	Historische Sprachwissenschaft , Hidden-Markov-Modell , Bayes-Inferenz , Markov-Ketten-Monte-Carlo-Verfahren	de_DE
dc.subject.ddc	004	de_DE
dc.subject.ddc	400	de_DE
dc.title	Algorithmic advancements in Computational Historical Linguistics	en
dc.type	PhDThesis	de_DE
dcterms.dateAccepted	2021-03-12
utue.publikation.fachbereich	Allgemeine u. vergleichende Sprachwissenschaft	de_DE
utue.publikation.fakultaet	5 Philosophische Fakultät	de_DE
utue.publikation.noppn	yes	de_DE

Dateien:	dissertation_Wahle2021.pdf 694. KB PDF

Das Dokument erscheint in:

5 Philosophische Fakultät [1774]

Zur Kurzanzeige

Veröffentlichen

Stöbern

Gesamter Bestand
Diese Sammlung

Mein Benutzerkonto

Einloggen

Algorithmic advancements in Computational Historical Linguistics

DSpace Repositorium (Manakin basiert)

Das Dokument erscheint in:

Stöbern

Gesamter Bestand

Diese Sammlung

Mein Benutzerkonto