Startseite » Datenbank Lexikon » Data Lake

Data Lake

Um den Begriff Data Lake zu verstehen, muss man sich zunächst bewusst machen, dass Daten mittlerweile ein Produktionsfaktor in wirtschaftlichen Betrieben geworden sind.

Nicht nur die Größe der Datenmengen ist entscheidend, sondern auch die Art der Daten. Wertvolle Informationen finden sich nicht mehr nur in klassischen Dokumenten. Sie finden sich überdies in Logdateien, Sensordaten und Daten aus sozialen Medien. Solche Daten werden von klassischen Systemen nicht ausgewertet.

Doch gerade das Zusammenspiel aller Daten liefert oft wichtige Erkenntnisse. Big Data steht für die Nutzung aller Informationen aus allen Daten.

Der Data Lake hat gewöhnlich ein Framework als zentrales Herz seiner Operationen. Üblicherweise werden die Berechnungen über viele Knoten eines Clusters verteilt.
Damit wird sichergestellt, dass Daten – je nach Wunsch – nach oder vor ihrer Speicherung analysiert, gefiltert und aufbereitet werden.

Damit verspricht der Data Lake Ansatz allen Mitarbeitern in einem Unternehmen den Zugang zu allen Daten mit der Möglichkeit der Analyse dieser Daten. Den Anwendern werden erste Berechnungen zur Verfügung gestellt, ebenso kann es sich aber auch um Entscheidungsgrundlagen handeln, die sich aus der automatischen Analyse der Daten ergeben haben.

Vorteile eines Data Lakes

Data Lakes können Wettbewerbsvorteile schaffen

Durch die genaue Analyse aller Verkaufstransaktionen, verbunden mit Logdateien, Kundenmeinungen usw., kann die Preis- und Angebotspolitik entscheidend verbessert werden.

Data Lakes sind schnell

Beim Konzept des Data Lakes werden zunächst alle Daten verfügbar gemacht, meist in ihrer Originalform. Erst beim Zugriff auf die Daten werden diese mundgerecht aufbereitet, je nachdem welcher Zugriff erfolgt.

Breites Nutzerspektrum bei vordefinierten Analysen

Durch die vorherige Definition ist es auch Laien ohne weiteres möglich Analysedaten aus dem Data Lake zu ziehen.

Data Lake Nachteile

Voraussetzungen müssen gegeben sein

Für den Einsatz des Data Lakes müssen gewisse Bedingungen im Vorfeld bei der Einrichtung bedacht, bzw. umgesetzt werden. So benötigen die gespeicherten Dokumente zwingend sprechende Metadaten. Nach diesen Metadaten kann später gesucht werden.

Die Anforderungen an die Nutzer steigen

Komplett freie Analysen sollten immer von entsprechenden Experten durchgeführt werden, da diese die Struktur und die Zusammenhänge der Rohdaten kennen.
Vordefinierte Analysen jedoch lassen sich leicht einem breiten Nutzerspektrum zuweisen.

Erhöhte Sicherheitsanforderungen

Je mehr Daten gespeichert sind und je besser die Zusammenhänge der Daten untereinander bestehen, desto besser müssen diese Daten geschützt sein. Das Sicherheitskonzept des „Data Lake“ muss gut durchdacht sein. Nicht alle Nutzer sollten überdies dieselben Zugriffsrechte haben.

Data Lake-Ansatz im Big Data-Umfeld

Ein gutes Data Lake Beispiel ist im Bank- oder Versicherungswesen zu finden. In diesen Branchen fallen Unmengen von Verträgen und Dokumenten an. In jedem Dokument stecken wertvolle Daten, viele Dokumente haben eine Beziehung zueinander. Kombiniert mit Kunden-, Zahlungs- und Analysedaten ergibt sich ein großer Datenpool pro Kunde oder Transaktion.

Weiterführende Artikel

Autor: Mandy
3 Bewertungen 1 Stern2 Sterne3 Sterne4 Sterne5 Sterne
Loading...
0