Dissertation/Thesis Abstract

Programming Abstractions, Compilation, and Execution Techniques for Massively Parallel Data Analysis
by Ewen, Stephan, Eng.D., Technische Universitaet Berlin (Germany), 2015, 149; 10698486
Abstract (Summary)

Aufgrund fallender Preise zur Speicherung von Daten kann man derzeit eine explosionsartige Zunahme in der Menge der verfgbaren Daten beobachten. Diese Entwicklung gibt Unternehmen und wissenschaftliche Institutionen die Mglichkeit empirische Daten in ungekannter Grenordnung zu analysieren. Fr viele Firmen ist die Analyse der gesammelten Daten aus ihrem operationalen Geschft lngst zu einem zentralen strategischen Aspekt geworden. Im Gegensatz zu der seit lngerem schon betriebenen Business Intelligence, bestehen diese Analysen nicht mehr nur aus traditionellen relationalen Anfragen. In zunehmendem Anteil kommen komplexe Algorithmen aus den Bereichen Data Mining und Maschinelles Lernen hinzu, um versteckte Muster in den Daten zu erkennen, oder Vorhersagemodelle zu trainieren. Mit zunehmender Datenmenge und Komplexitt der Analysen wird jedoch eine neue Generation von Systemen bentigt, die diese Kombination aus Anfragekomplexitt und Datenvolumen gewachsen sind. Relationale Datenbanken waren lange Zeit das Zugpferd der Datenanalyse im groen Stil. Grund dafr war zum groen Teil ihre deklarativen Anfragesprache, welche es ermglichte die logischen und physischen Aspekte der Datenspeicherung und Verarbeitung zu trennen, und Anfragen automatisch zu optimieren. Das starres Datenmodell und ihre beschrnkte Menge von mglichen Operationen schrnken jedoch die Anwendbarkeit von relationalen Datenbanken fr viele der neueren analytischen Probleme stark ein. Diese Erkenntnis hat die Entwicklung einer neuen Generation von Systemen und Architekturen eingelutet, die sich durch sehr generische Abstraktionen fr parallelisierbare analytische Programme auszeichnen; MapReduce kann hier beispielhaft genannt werden, als der zweifelsohne prominenteste Vertreter dieser Systeme. Zwar vereinfachte und erschloss diese neue Generation von Systemen die Datenanalyse in diversen neuen Anwendungsfeldern, sie ist jedoch nicht in der Lage komplexe Anwendungen aus den Bereichen Data Mining und Maschinelles Lernen effizient abzubilden, ohne sich dabei extrem auf spezifische Anwendungen zu spezialisieren. Verglichen mit den relationalen Datenbanken haben MapReduce und vergleichbare Systeme auerdem die deklarative Abstraktion aufgegeben und zwingen den Anwender dazu systemnahe Programme zu schreiben und diese manuell zu optimieren. In dieser Dissertation werden verschiedene Techniken vorgestellt, die es ermglichen etliche der zentralen Eigenschaften von relationalen Datenbanken im Kontext dieser neuen Generation von daten-parallelen Analysesystemen zu realisieren. Mithilfe dieser Techniken ist es mglich ein Analysesystem zu beschreiben, dessen Programme gleichzeitig sowohl generische und ausdrucksstark, als auch prgnant und deklarativ sind. Im einzelnen stellen wir folgende Techniken vor: Erstens, eine Programmierabstraktion die generisch ist und mit komplexen Datenmodellen umgehen kann, aber gleichzeitig viele der deklarativen Eigenschaften der relationalen Algebra erhlt. Programme, die gegen dies Abstraktion entwickelt werden knnen hnlich optimiert werden wie relationale Anfragen. Zweitens stellen wir eine Abstraktion fr iterative daten-parallele Algorithmen vor. Die Abstraktion untersttzt inkrementelle (delta-basierte) Berechnungen und geht mit zustandsbehafteteten Berechnungen transparent um. Wir beschreiben wie man einen relationalen Anfrageoptimierer erweitern kann so dass dieser iterative Anfragen effektiv optimiert. Wir zeigen dabei dass der Optimierer dadurch in die Lage versetzt wird automatisch Ausfhrungsplne zu erzeugen, die wohlbekannten, manuell erstellten Programmen entsprechen. Die Abstraktion subsumiert dadurch spezialisierte Systeme (wie Pregel) und bietet vergleichbare Performanz. Drittens stellen wir Methoden vor, um die Programmierabstraktion in eine funktionale Sprachen einzubetten. Diese Integration ermgliche es prgnante Programme zu schreiben und einfach wiederzuverwendenden Komponenten und Bibliotheken, sowie Domnenspezifische Sprachen, zu erstellen. Wir legen dar wie man die bersetzung und Optimierung des daten-parallelen Programms mit dem Sprachbersetzer der funktionalen Sprache so integriert, dass maximales Optimierungspotenzial besteht.

Indexing (document details)
Advisor: Markl, Volker
Commitee:
School: Technische Universitaet Berlin (Germany)
School Location: Germany
Source: DAI-C 81/1(E), Dissertation Abstracts International
Source Type: DISSERTATION
Subjects: Computer science
Keywords: Relational databases
Publication Number: 10698486
ISBN: 9781392869192
Copyright © 2020 ProQuest LLC. All rights reserved. Terms and Conditions Privacy Policy Cookie Policy
ProQuest