Skip to main content

Big Data ist ein großes Geschäft!

Heutzutage hört man oft “Daten sind das neue Öl!”. Genauso wie Öl, sind Daten ein komplexes Produkt, welches durch zahlreiche Verarbeitungs- und Verfeinerungsschritte entsteht. Ebenso kann man eine Analogie zu “Big Data” herstellen. Datenbohrtürme sind dann, z.B., Informationsextraktions- und Informationsintegrationsmethoden, welche Information aus den grundlegenden Rohdaten extrahieren und semantisch anreichern. Die Raffinerien entsprechen Datenanalyse- und Dataminingalgorithmen, Systemen  und Werkzeugen,  welche die Daten aggregieren, gruppieren und die Daten somit neu ordnen, um sie in Erkenntnisse und verwertbare Informationen umzuwandeln. Wir sehen bereits einen ganzen Wirtschaftszweig an Vertriebsnetzen rund um Big Data entstehen, wie z.B. Informationsmarktplätze,  die verarbeitete, semantisch angereicherte und erweiterte Daten verkaufen. Im Transport und Logistikwesen werden zunehmend Big Data Lösungen eingesetzt für Fahrzeugortung und zur Optimierung des Flottenmanagements. Industrie 4.0 verwendet Big Data Analysen, um zukünftig intelligente Fertigungsprozesse zu ermöglichen und auch im Gesundheitswesen wird zunehmend an Big Data Anwendungen gearbeitet. Big Data wird die wissenschaftlichen Prozesse nicht nur  beschleunigen, sondern sogar viele wissenschaftliche Prozesse ändern und tiefgreifende Auswirkungen auf Wirtschaft, Wissenschaft und die Gesellschaft im Ganzen haben.

 

 

 

 

Data Scientist - Überwindung des Mangels an Experten

Interaction of application, scalable data management and machine learning.

Laut Harvard Business Review ist Data Scientist “der sexyste Job des 21. Jahrhunderts”.   Data Scientists werden oft als Genies angesehen, die aus Big Data Werte entstehen lassen. Data Scientists benötigen dazu Wissen aus den drei sehr unterschiedlichen Bereichen: skalierbare Datenverarbeitung, Datenanalyse und Domänenexpertise. Daher ist es schwierig diese eierlegenden Wollmilchsauen zu finden, die diese drei Bereiche gleichzeitig abdecken können oder wie es das Wall Street Journalausdrückt “Das größte Problem von Big Data ist zuwenig Talent”. Selbstverständlich ist das Finden von talentierten Data Scientists auch eine Voraussetzung, um Big Data sinnvoll auszuwerten. Wenn Datenanalysen durch eine deklarative Sprache spezifizierbar wären, dann  müssten sich Data Scientists nicht länger mit  systemnaher (‘low-level’) Programmierung auseinandersetzen und könnten sich stattdessen ausschließlich auf die Programmierung des eigentlichen Datenanalyseproblems konzentrieren. Das Ziel des Berlin Big Data Centers ist es, die Lücke im Bereich Big Data, die durch den Mangel an Data Scientists entstanden ist durch Forschung und Entwicklung neuartiger Technologie zu schließen. Unser Ausgangspunkt ist das Apache Flink System. Wir streben an tiefe Analysen von massiven heterogenen Datenmengen bei geringer Latenz durch die Entwicklung von erweiterten Verfahren der skalierbaren Datenanalyse und des maschinellen Lernen zu ermöglichen. Unser Ziel ist es diese Methoden in deklarativer Weise zu spezifizieren und sie automatisch zu optimieren und zu parallisieren, um Data Scientists die Möglichkeit zu bieten sich auf das Analyseproblem zu konzentrieren, d.h. sie von der Bürde des Systemprogrammierens zu befreien.

Lesen Sie hierzu mehr im Artikel "Gesprengte Ketten - Smart Data, deklarative Datenanalyse, Apache Flink" (Informatik Spektrum 01/2015 Pre-Print) von Prof. Markl.

Über "Data Scientists" und "das neue Öl"

Unter „Big Data“ versteht man häufig neue Anforderungen an Daten und Analysen, die nicht mehr mit der heutzutage allgemein verfügbaren Technologie verarbeitet werden können. Diese Anforderungen werden üblicherweise durch die 3 Vs (engl. volume, variety und velocity) beschrieben: ein hohes Volumen an Daten, aus unterschiedlichen Quellen, welches mit hoher Geschwindigkeit eintrifft. Die 3 Vs beschreiben jedoch nicht die neue Art der Komplexität von „Big Data“ in seiner Gesamtheit. Die tatsächliche Komplexität aus technologischer Sicht beruht auf der Tatsache, dass fortgeschrittene prädiktive und präskriptive Analysemethoden auf massiven, heterogenen Datenmengen mit geringer Latenz angewendet werden müssen. Aus diesem Grunde spricht man oft auch nicht mehr von „Big Data“, sondern von „Smart Data“, der intelligenten Analyse von Massendaten. Um diese zu erreichen, müssen neue Technologien und Systeme im Bereich der skalierbaren Datenverarbeitung und neue algorithmische Verfahren der Datenanalyse erforscht und entwickelt werden. Neben diesen technischen Herausforderungen umfasst „Smart Data“ auch Herausforderungen in den Bereichen Anwendungen, Wirtschaft, Recht und Sozial. Im Folgenden werden diese fünf Dimensionen kurz skizziert:

Das BBDC sieht sich als Katalysator für die Big Data Forschung in Deutschland und Europa. Der  Fokus des BBDC besteht darin, die Herausforderungen in der technologischen Dimension anzugehen. Mit dem Ziel. die Resultate in ausgewählten Anwendungen zu demonstrieren, werden skalierbare Datenmanagementsysteme, die fortgeschrittene Datenanalysemethoden verarbeiten können, erforscht und entwickelt. Jedoch werden wir durch die Untersuchung und Validierung von Anwendungsfällen zusammen mit unseren Partnern und Begleitforschung ebenfalls zu Lösungsansätzen in den anderen Dimensionen beitragen.

Eine weiterführende Auseinandersetzung mit diesem Themen findet sich in einer Opens external link in new windowStudie, die für das Bundesministerium für Wirtschaft und Energie stellt wurde.

Die Fünf Dimensionen von Big Data

Technologie: Es werden skalierbare Systeme und Plattformen für die Datenanalyse benötigt, ebenso wie neue Datenanalysemethoden und im Besonderen Technologien zur Überwindung von Qualifikationsdefiziten  (bspw., die Entwicklung von Datenanalysemethoden, die von einer breiteren Anwendegruppe eingesetzt werden können).

Wirtschaft: Die Chancen und Risiken in der wirtschaftlichen Dimension von“Smart Data“ liegen in neuen Geschäftsmodellen und im Paradigmenwechsel bei der Inhaltsverteilung (z.B. Preisfestsetzung für Informationen und die Rolle von Open-Source-Software im Bereich der Datenanalysesysteme, -plattformen, -tools und bei Informationsmarktplätzen). Insbesondere für die Wirtschaftsinformatik ergeben sich hier interessante Fragestellungen.

Recht: Aus juristischer Sicht entstehen durch Big Data, zusätzlich zu den breit geführten Diskussionen im Kontext von Datenschutz und Datensicherheit, neue Herausforderungen in Bezug auf Eigentum, Haftung und Insolvenz. Insbesondere ist anzumerken, dass das deutsche Recht keinen Begriff des „Eigentums von Daten“ im Zivilrecht kennt, Haftungsfragen bei Datenanalyse aus vielen Quellen sind ebenfalls interessante Herausforderungen im rechtlichen Bereich. Die Grundsätze des derzeitigen Datenschutzes, insbesondere das Verbot mit Erlaubnisvorbehalt erscheint in vielen Bereichen von „Big Data“ nicht als praktikabel. Dieses führt effektiv zu schlechterem Datenschutz, da die Einwilligung nicht über die Vielzahl an Daten- und Analysen skaliert und somit viele Bürger Daten preisgeben, ohne die Analysekonsequenzen zu kennen. Hier besteht Forschungsbedarf, um zu analysieren, wie dieses „Verbot mit Erlaubnisvorbehalt“ besser durch einen problemadäquaten „Analyseschutz“ bzw. durch Konzepte wie einen „Datenspenderausweis“ ersetzt werden könnte.

Sozial: Die datengetriebene Innovation wird tiefgreifende Auswirkungen auf die Gesellschaft im Ganzen haben, u.a. in Bezug auf das Zusammenleben, Nachrichten, Umgang mit Informationen und sogar auf demokratische Prozesse. Somit besteht auch Forschungsbedarf im Hinblick auf die sozialen Fragen, die durch „Big Data“ aufgeworfen werden.


Die fünf Dimensionen von „Big Data“

Unter „Big Data“ versteht man häufig neue Anforderungen an Daten und Analysen, die nicht mehr mit der heutzutage allgemein verfügbaren Technologie verarbeitet werden können. Diese Anforderungen werden üblicherweise durch die 3 Vs (engl. volume, variety und velocity) beschrieben: ein hohes Volumen an Daten, aus unterschiedlichen Quellen, welches mit hoher Geschwindigkeit eintrifft. Die 3 Vs beschreiben jedoch nicht die neue Art der Komplexität von „Big Data“ in seiner Gesamtheit. Die tatsächliche Komplexität aus technologischer Sicht beruht auf der Tatsache, dass fortgeschrittene prädiktive und präskriptive Analysemethoden auf massiven, heterogenen Datenmengen mit geringer Latenz angewendet werden müssen. Aus diesem Grunde spricht man oft auch nicht mehr von „Big Data“, sondern von „Smart Data“, der intelligenten Analyse von Massendaten. Um diese zu erreichen, müssen neue Technologien und Systeme im Bereich der skalierbaren Datenverarbeitung und neue algorithmische Verfahren der Datenanalyse erforscht und entwickelt werden. Neben diesen technischen Herausforderungen umfasst „Smart Data“ auch Herausforderungen in den Bereichen Anwendungen, Wirtschaft, Recht und Sozial. Im Folgenden werden diese fünf Dimensionen kurz skizziert: