Hadoop Data Lake - Erläuterung und Überblick

Was ist ein Hadoop-Datensee?

Hadoop ist ein wichtiges Element der Architektur, die zum Aufbau von Data Lakes verwendet wird. Ein Hadoop-Datensee wurde auf einer Plattform aufgebaut, die aus Hadoop-Clustern besteht. Hadoop ist in der Data-Lake-Architektur besonders beliebt, da es Open Source ist (als Teil des Apache Software Foundation-Projekts). Dies bedeutet, dass die Kosten für den Aufbau großer Datenspeicher erheblich gesenkt werden können.

Die in Hadoop-Clustern gespeicherten Daten und Informationen sind nicht-relational und können JSON-Objekte, Protokolldateien, Bilder und Webbeiträge umfassen. Diese Art von Architektur ist nicht für die Transaktionsverarbeitung konzipiert, sondern dient der Unterstützung von Analyseanwendungen. 

In Data Lakes werden die Daten in der Regel in einem Hadoop Distributed File System (HDFS) gespeichert. Dieses System ermöglicht die gleichzeitige Verarbeitung von Daten. Das liegt daran, dass die Daten beim Einlesen in Segmente unterteilt und auf verschiedene Knoten in einem Cluster verteilt werden. Hadoop-Datenseen können auch eine Vielzahl von strukturierten, unstrukturierten und halbstrukturierten Daten enthalten. Dadurch sind sie für bestimmte Vorgänge besser geeignet als Data Warehouses mit einem engeren Fokus.

Neben Hadoop gibt es weitere Beispiele für Data Lake. Dazu gehören ein Azure Data Lake Store oder der Amazon S3 Cloud Object Store. In Bezug auf Data Lakes gibt es keine Data-Lake-Definition, die sich ausschließlich auf die verwendete Technologie stützt. Daher ist es möglich, dass Hadoop in Zukunft nicht mehr in der Data-Lake-Architektur verwendet wird.

Eine weitere wichtige Unterscheidung im Zusammenhang mit Big Data-Architekturen ist die zwischen Data Warehouse und Data Lake. Dies bezieht sich darauf, wie viele Daten gespeichert werden und wie strukturiert sie sind. Ein Data Lake ist ein großer Speicher, der bis zu Petabyte groß sein kann und in dem Rohdaten in Form von Blöcken oder Dateien gespeichert werden. Ein Data Warehouse hingegen ist weitaus zielgerichteter in seinem Aufbau. Die darin gespeicherten Daten werden in der Regel verarbeitet und verfeinert, so dass sie bei der Analyse von Daten zur Gewinnung von Geschäftsinformationen einfacher und schneller genutzt werden können.