Automatic Loanword Identification Using Tree Reconciliation

DSpace Repositorium (Manakin basiert)

Zur Kurzanzeige

dc.contributor.advisor Jäger, Gerhard (Prof. Dr.)
dc.contributor.author Köllner, Marisa
dc.date.accessioned 2021-08-20T10:22:47Z
dc.date.available 2021-08-20T10:22:47Z
dc.date.issued 2021-08-20
dc.identifier.uri http://hdl.handle.net/10900/118123
dc.identifier.uri http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1181239 de_DE
dc.identifier.uri http://dx.doi.org/10.15496/publikation-59497
dc.description.abstract Die Verwendung von computerbasierten Methoden in der Historischen Linguistik stieg in den letzten Jahren stetig an. Phylogenetische Methoden, welche zur Bestimmung der Evolutionsgeschichte und Verwandtschaftsgraden zwischen Organismen entwickelt wurden, erhielten Einzug in die Historische Linguistik. Die Verfügbarkeit von maschinenlesbaren Daten förderten deren Anpassung und Weiterentwicklung. Während einige Algorithmen zur Rekonstruktion der sprachlichen Evolutionsgeschichte übernommen wurden, wurde den Methoden für horizontalen Transfer kaum Beachtung geschenkt. Angelehnt an die Parallele zwischen horizontalem Gentransfer und Entlehnung, werden in dieser Arbeit phylogenetische Methoden zur Erkennung von horizontalem Gentransfer für die Identifikation von Lehnwörtern verwendet. Die Algorithmen für horizontalen Gentransfer basieren auf dem Vergleich zweier phylogenetischer Bäume. In der Linguistik bildet der Sprachbaum die Sprachgeschichte ab, während ein Konzeptbaum die Evolutionsgeschichte einzelner Wörter repräsentiert. Die Rekonstruktion eines Sprachbaumes ist wissenschaftlich fundiert, wohingegen die Rekonstruktion von Konzeptbäumen bisher wenig erforscht wurde. Eine erhebliche Innovation dieser Arbeit ist die Einführung verschiedener Methoden zur Rekonstruktion von stabilen Konzeptbäumen. Da die Algorithmen zur Erkennung von horizontalem Transfer auf einem Baumvergleich basieren, deuten die Unterschiede zwischen einem Sprachbaum und einem Konzeptbaum auf Lehnwörter innerhalb der Daten hin. Daher wird sowohl die Methodik, als auch ein geeigneter Algorithmus in einem linguistischen Kontext eingeführt. Die Ergebnisse der Lehnworterkennung werden mithilfe eines neu entwickelten Goldstandards evaluiert und mit drei weiteren Algorithmen aus der Historischen Computerlinguistik verglichen. Ziel der Arbeit ist zu erläutern, inwieweit Algorithmen basierend auf dem Vergleich zweier Bäume für die automatische Lehnworterkennung verwendet und in welchem Umfang Lehnwörter erfolgreich innerhalb der Daten bestimmt werden können. Die Identifikation von Lehnwörtern trägt zu einem tieferen Verständnis von Sprachkontakt und den unterschiedlichen Arten von Lehnwörtern bei. Daher ist die Adaption von phylogenetischen Methoden nicht nur lohnenswert für die Bestimmungen von Entlehnungen, sondern dient auch als Basis für weitere, detailliertere Analysen auf den Gebieten der automatischen Lehnworterkennung und Kontaktlinguistik. de_DE
dc.description.abstract The use of computational methods in historical linguistics increased during the last years. Phylogenetic methods, which explore the evolutionary history and relationships among organisms, found their way into historical linguistics. The availability of machine-readable data accelerated their adaptation and development. While some methods addressing the evolution of languages are integrated into linguistics, scarcely any attention has been paid to methods analyzing horizontal transmission. Inspired by the parallel between horizontal gene transfer and borrowing, this thesis aims at adapting horizontal transfer methods into computational historical linguistics to identify borrowing scenarios along with the transferred loanwords. Computational methods modeling horizontal transfer are based on the framework of tree reconciliation. The methods attempt to detect horizontal transfer by fitting the evolutionary history of words to the evolution of their corresponding languages, both represented in phylogenetic trees. The discordance between the two evolutionary scenarios indicates the influence of loanwords due to language contact. The tree reconciliation framework is introduced in a linguistic setting along with an appropriate algorithm, which is applied to linguistic trees to detect loanwords. While the reconstruction of language trees is scientifically substantiated, little research has so far be done on the reconstruction of concept trees, representing the words’ histories. One major innovation of this thesis is the introduction of various methods to reconstruct reliable concept trees and determine their stability in order to achieve reasonable results in terms of loanword detection. The results of the tree reconciliation are evaluated against a newly developed gold standard and compared to three methods established for the task of language contact detection in computational historical linguistics. The main aim of this thesis is to clarify the purpose of tree reconciliation methods in linguistics. The following analyses should give insights to which degree the direct transfer of phylogenetic methods into the field of linguistics is fruitful and can be used to discover borrowings along with the transferred loanwords. The identification of loanwords is a first step into the direction of a deeper understanding of contact scenarios and possible types of loanwords present in linguistic data. The adaptation of phylogenetic methods is not only worthwhile to shed light on detailed horizontal transmissions, but serves as basis for further, more detailed analyses in the field of contact linguistics. en
dc.language.iso en de_DE
dc.publisher Universität Tübingen de_DE
dc.rights ubt-podok de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en en
dc.subject.classification Linguistik , Historische Sprachwissenschaft , Sprachkontakt , Lehnwort de_DE
dc.subject.ddc 400 de_DE
dc.subject.other Phylogenetik de_DE
dc.subject.other Lehnworterkennung de_DE
dc.subject.other Horizontaler Wort Transfer de_DE
dc.subject.other Loanword Identification en
dc.subject.other Phylogenetic en
dc.subject.other Phylolinguistics en
dc.subject.other Horizontal Word Transfer en
dc.subject.other Language Contact en
dc.subject.other Historical Linguistics en
dc.subject.other Linguistics en
dc.title Automatic Loanword Identification Using Tree Reconciliation en
dc.type PhDThesis de_DE
dcterms.dateAccepted 2021-03-12
utue.publikation.fachbereich Allgemeine u. vergleichende Sprachwissenschaft de_DE
utue.publikation.fakultaet 5 Philosophische Fakultät de_DE
utue.publikation.noppn yes de_DE

Dateien:

Das Dokument erscheint in:

Zur Kurzanzeige