Dissertation/Thesis Abstract

Exploratory Relation Extraction in Large Multilingual Data
by Akbik, Alan, Ph.D., Technische Universitaet Berlin (Germany), 2016, 140; 27610252
Abstract (Summary)

Die Problemstellung der Relationsextraktion (RE) beschreibt die automatische Gewinnung strukturierter, relationaler Information aus unstrukturierten Daten wie zum Beispiel naturlichsprachlichem Text. Durch RE werden neue Arten der Strukturierung, Organisation und Analyse von Informationen ermoglicht, da sie eine Brücke zwischen der klar strukturierten Semantik von Datenbanken und der stetigen Explosion verfugbarer Textdaten zu bauen vermag. In der Praxis ist die Anwendung von RE allerdings problematisch; Anwendungsszenarien sind oft durch vage, sich schnell andernde Informationsbedürfnisse gekennzeichnet, sowie von großen, mehrsprachigen Datensatzen unbekannten Inhalts. In solchen Szenarien schlagen klassische RE Ansätze fehl, da Extraktionsaufgaben im Voraus sorgsam definiert werden mussen, woraufhin Extraktoren in einem zweiten Schritt mit hohem Aufwand gebaut werden. In dieser Dissertation stelle ich das neuartige Paradigma der Explorativen Relationsextraktion (ERE) vor. Hierbei handelt es sich um einen nutzergetriebenen, halbautomatischen Vorgang, mit dem neue Relationstypen in Datensatzen unbekannten Inhalts entdeckt werden können. Ich zeige, wie verteilungssemantische Statistiken und eine ausgewahlte linguistische Abstraktion angewendet werden, um Nutzern sowohl die Erkundung von Textdaten nach relationalen Informationen als auch das schnelle prototypische Erstellen von Extraktoren mit minimalem Aufwand zu ermoglichen. Für den Umgang mit mehrsprachigen Daten schlage ich darüber hinaus die Nutzung einer sprachubergreifenden Repräsentation flacher Semantik vor. Auf dieser Basis konnen ohne Zusatzaufwand sprachübergreifende Extraktoren erzeugt werden. Ich stelle eine Methode vor, mit der englischsprachige Semantische Rollen auf andere Sprachen ausgeweitet werden konnen und erzeuge damit umfassende Resourcen um mehrsprachige semantische Parser zu trainieren. Zusammengenommen stellen die in dieser Dissertation erforschten Methoden einen neuartigen Ansatz zum Umgang mit großen und mehrsprachigen Datensatzen unbekannten Inhalts dar.

Indexing (document details)
Advisor: Markl, Volker
Commitee:
School: Technische Universitaet Berlin (Germany)
School Location: Germany
Source: DAI-C 81/4(E), Dissertation Abstracts International
Source Type: DISSERTATION
Subjects: Information science
Keywords: Multilingual data, Extraction
Publication Number: 27610252
ISBN: 9781392859698
Copyright © 2020 ProQuest LLC. All rights reserved. Terms and Conditions Privacy Policy Cookie Policy
ProQuest