Skalierbare Datenanalyse

Die Sprachen zur Definition von Big Data Analyseprogrammen erlauben entweder keine Spezifikation von iterativen Algorithmen, unterstützen nicht geordnete und ungeordnete Daten in einem Paradigma, oder sind nicht deklarativ und damit nicht automatisch optimierbar und skalierbar. Um diese Herausforderung zu lösen, müssen wir die folgenden Forschungsfragen beantworten:

  • Wie können wir deklarative Spezifikation auch im Umgang mit iterativen Algorithmen, Zustand und geordneten Kollektionen erhalten?
  • Welche mathematisch-algebraischen Konstrukte sind hierfür erforderlich?
  • Welche Äquivalenzregeln und damit automatische Optimierungsmöglichkeiten ergeben sich durch deklarative Spezifikation?
  • Wie kann Fehlertoleranz deklarativ spezifiziert werden?
  • Wie können Konsistenz- und Fehlertoleranzanforderungen aus einer deklarativen Spezifikation eines iterativen Datenanalysealgorithmus automatisch abgeleitet werden?

Um die Analyse von großen Mengen heterogener Daten mit komplexen Verfahren des Maschinellen Lernens, der Bildanalyse, der Videoanalyse und der Textanalyse zu ermöglichen, müssen wir bestehende Modelle um die Konzepte der geordneten Kollektionen,  Multidimensionalität sowie im Hinblick auf den Zugriff auf einen verteilten Zustand innerhalb und zwischen den Ausführungsschritten von iterativen Algorithmen erweitern, um Spezifikationsmöglichkeiten für Grade der Fehlertoleranz und Konsistenz der verteilten Ausführung zu bieten.  Auf diese Weise wollen wir ein Fundament schaffen, das analog zur relationalen Algebra für Datenbanksysteme die grundlegende Basis für Big Data Analytics Systeme werden soll.