Acht Datenmanagement-Anforderungen für den Enterprise Data Lake

14 Minuten lesen

Data Lakes werden das Data Warehouse umgeben und in einigen Fällen sogar verdrängen, und wir werden bedeutende technologische Innovationen, Data-Lake-Produkte, Methoden und Referenzarchitekturen sehen, die das Versprechen eines breiteren Datenzugriffs und großer Dateneinblicke in die Realität umsetzen. Big-Data-Produkte und -Lösungen müssen jedoch ausgereift sein und über die Rolle eines primären Entwickler-Tools für hochqualifizierte Programmierer hinausgehen. Der Enterprise Data Lake wird es Unternehmen ermöglichen, Daten zu verfolgen, zu verwalten und zu nutzen, auf die sie in der Vergangenheit keinen Zugriff hatten. Neue Strategien für das Management von Unternehmensdaten führen bereits zu prädiktiven und präskriptiven Analysen, die zu einem verbesserten Kundenservice, zu Kosteneinsparungen und zu einem allgemeinen Wettbewerbsvorteil führen, wenn sie richtig auf die wichtigsten Geschäftsinitiativen abgestimmt sind.

Unabhängig davon, ob Ihr Data Warehouse auf Lebenszeit läuft oder in den Wartungsmodus wechselt, wird es höchstwahrscheinlich vorerst weiterhin das tun, was es am besten kann: operative und historische Berichte und Analysen (auch bekannt als Rückspiegel). Wenn Sie eine Enterprise Data Lake-Strategie zur Verwaltung dynamischerer, polystrukturierter Daten in Erwägung ziehen, muss sich auch Ihre Datenintegrationsstrategie weiterentwickeln, um den neuen Anforderungen gerecht zu werden. Wenn Sie glauben, dass Sie einfach mehr Entwickler einstellen können, um Code zu schreiben, oder sich auf Ihre alten zeilen- und spaltenzentrierten Tools verlassen können, ist das ein Rezept, um in einem Datensumpf zu versinken, anstatt in einem Datensee zu schwimmen.

Lassen Sie uns zunächst definieren, was ein Data Lake ist.

Was ist ein Data Lake?

Ein Data Lake ist ein großes, zentralisiertes Repository mit strukturierten und unstrukturierten Daten, die in ihrem rohen, nativen Format gespeichert werden. Data Lakes wurden entwickelt, um eine skalierbare und flexible Plattform für die Speicherung und Analyse großer Datenmengen zu bieten, und sie werden häufig von Unternehmen verwendet, um Daten aus einer Vielzahl von Quellen zu speichern, wie z. B. Sensoren, Social Media Feeds und Transaktionssysteme. Die Daten in einem Data Lake können mit einer breiten Palette von Tools und Technologien verarbeitet und analysiert werden, darunter Stapelverarbeitungssysteme, Echtzeit-Stream-Processing-Engines und interaktive Abfrage-Engines. Das Ziel eines Data Lake ist es, ein einziges, zentrales Repository für alle Daten eines Unternehmens bereitzustellen, in dem sie leicht abgerufen, abgefragt und analysiert werden können, um eine Vielzahl von Anwendungsfällen zu unterstützen.

Sehr gut. Jetzt, da wir wissen, was ein Data Lake ist, wollen wir uns der Technik widmen.

Im Folgenden finden Sie acht Anforderungen an die Verwaltung von Unternehmensdaten, die erfüllt werden müssen, um den maximalen Nutzen aus Ihren Investitionen in Big-Data-Technologien und Data-Lake-Produkten zu ziehen.

8 Unternehmensdatenmanagement-Anforderungen für Ihren Data Lake

1) Speicherung und Datenformate

Das traditionelle Data Warehousing konzentrierte sich auf relationale Datenbanken als primäres Daten- und Speicherformat. Ein Schlüsselkonzept des Data Lake ist die Fähigkeit, eine große Menge an Daten zuverlässig zu speichern. Solche Datenmengen sind in der Regel viel größer als das, was in herkömmlichen relationalen Datenbanken verarbeitet werden kann, oder viel größer als das, was auf kosteneffektive Weise verarbeitet werden kann. Zu diesem Zweck muss die zugrunde liegende Datenspeicherung skalierbar und zuverlässig sein. Das Hadoop Distributed File System (HDFS) und die zugehörigen Hadoop-Datenverwaltungstools sind inzwischen ausgereift und stellen die führende Datenspeichertechnologie dar, die eine zuverlässige Persistenz großer Datenmengen ermöglicht. Allerdings können auch andere Speicher- und Data Lake-Produkte das Datenspeicher-Backend für den Data Lake bereitstellen. Open-Source-Systeme wie Cassandra, HBase und MongoDB können zuverlässige Speicher für den Data Lake bereitstellen. Alternativ dazu können auch Cloud-basierte Speicherdienste als Datenspeicher-Backend verwendet werden. Zu diesen Diensten gehören Amazon S3, Google Cloud Storage und der Microsoft Azure Blob Store.

Im Gegensatz zu relationalen Datenbanken ist bei der Big-Data-Speicherung in der Regel kein Datenspeicherformat vorgeschrieben. Das heißt, dass Big-Data-Speicher beliebige Datenformate unterstützen, die von den Anwendungen, die die Daten verwenden, verstanden werden. So können Daten beispielsweise in CSV, RCFile, ORC oder Parquet gespeichert werden, um nur einige zu nennen. Darüber hinaus können verschiedene Komprimierungstechniken - wie GZip, LZO und Snappy - auf Datendateien angewendet werden, um den Speicherplatz und die Nutzung der Netzwerkbandbreite zu verbessern. Dadurch wird die Speicherung im Data Lake wesentlich flexibler. Mehrere Formate und Komprimierungstechniken können in ein und demselben Data Lake verwendet werden, um spezifische Daten und Abfrageanforderungen optimal zu unterstützen.

2) Ingest und Bereitstellung

Data Lakes benötigen Mechanismen, um Daten in die und aus der Backend-Speicherplattform zu holen. In herkömmlichen Data Warehouses werden die Daten mithilfe einer Form von SQL und einem Datenbanktreiber, möglicherweise über ODBC oder JDBC, eingefügt und abgefragt. Es gibt zwar kompatible Treiber für den Zugriff auf Hadoop-Daten, aber die Vielfalt der Datenformate erfordert flexiblere Tools, um die verschiedenen Formate zu verarbeiten. Open-Source-Tools wie Sqoop und Flume bieten Low-Level-Schnittstellen für den Zugriff auf Daten aus relationalen Datenbanken bzw. Protokolldaten. Darüber hinaus werden derzeit benutzerdefinierte MapReduce-Programme und Skripte verwendet, um Daten aus APIs und anderen Datenquellen zu importieren. Kommerzielle Tools bieten vorgefertigte Konnektoren und unterstützen eine Vielzahl von Datenformaten, um Datenquellen mit Daten-Repositories im Data Lake zu kombinieren.

Angesichts der Vielfalt der Datenformate für Hadoop-Daten gibt es noch kein umfassendes Schema-Management-Tool. Der über HCatalog erweiterte Metaspeicher von Hive bietet einen relationalen Schema-Manager für Hadoop-Daten. Allerdings können nicht alle Datenformate in HCatalog beschrieben werden. Bislang werden viele Hadoop-Daten innerhalb der Anwendungen selbst definiert, etwa mit JSON, AVRO, RCFile oder Parquet. Genau wie bei den Datenendpunkten und Datenformaten können die richtigen kommerziellen Tools dabei helfen, die Daten des Sees zu beschreiben und die Schemata für die Endbenutzer leichter zugänglich zu machen.

3) Entdeckung und Vorbereitung

Aufgrund der Flexibilität der Datenformate in Hadoop-Datenmanagement-Tools und anderen Backend-Speicherplattformen für Data Lakes ist es üblich, Daten in den See zu laden, ohne das Schema der Daten vollständig zu verstehen. In der Tat können viele Daten im Data Lake sehr unstrukturiert sein. Die Kosteneffizienz von Hadoop-Daten macht es in jedem Fall möglich, die Daten nach ihrer Erfassung aufzubereiten. Dies ist mehr ELT (Extrahieren, Laden, Transformieren) als traditionelles ETL (Extrahieren, Transformieren, Laden). Es gibt jedoch einen Punkt, an dem das Format der Daten verstanden werden muss, um mit einem Datensatz sinnvoll arbeiten zu können.

Im Open-Source-Ökosystem kann die Erkennung und Vorbereitung über die Befehlszeile mit Skriptsprachen wie Python und Pig erfolgen. Letztendlich können native MapReduce-Aufgaben, Pig oder Hive verwendet werden, um nützliche Daten aus halbstrukturierten Daten zu extrahieren. Diese neuen, zugänglichen Daten können von weiteren analytischen Abfragen oder Machine-Learning-Algorithmen verwendet werden. Darüber hinaus können die aufbereiteten Daten an herkömmliche relationale Datenbanken geliefert werden, so dass herkömmliche Business Intelligence-Tools sie direkt abfragen können.

Kommerzielle Angebote im Bereich der Datenermittlung und der grundlegenden Datenaufbereitung bieten webbasierte Schnittstellen (auch wenn es sich bei einigen um grundlegende Tools für das so genannte "Data Blending" vor Ort handelt) für die Untersuchung von Rohdaten und die Entwicklung von Strategien zur Bereinigung und Extraktion relevanter Daten. Solche kommerziellen Tools reichen von "leichtgewichtigen", kalkulationsähnlichen Schnittstellen bis hin zu heuristisch basierten Analyse-Schnittstellen, die bei der Datenermittlung und -extraktion helfen.

4) Umwandlungen und Analysen

Systeme wie Hadoop sind nicht nur flexibler in Bezug auf die Arten von Daten, die gespeichert werden können, sondern auch in Bezug auf die Arten von Abfragen und Berechnungen, die mit den gespeicherten Daten durchgeführt werden können. SQL ist eine leistungsstarke Sprache für die Abfrage und Umwandlung relationaler Daten, eignet sich aber nicht für Abfragen nicht-relationaler Daten und für die Anwendung iterativer Algorithmen für maschinelles Lernen und anderer beliebiger Berechnungen. Tools wie Hive, Impala und Spark SQL bieten SQL-ähnliche Abfragen für Hadoop-Daten. Tools wie Cascading, Crunch und Pig bieten jedoch eine flexiblere Datenverarbeitung für Hadoop-Daten. Die meisten dieser Tools werden von einer der beiden am weitesten verbreiteten Datenverarbeitungs-Engines unterstützt: MapReduce oder Spark.

Im Data Lake gibt es drei Arten von Transformationen und Analysen: einfache Transformationen, analytische Abfragen und Ad-hoc-Berechnungen. Zu den einfachen Transformationen gehören Aufgaben wie Datenvorbereitung, Datenbereinigung und Filterung. Analytische Abfragen werden verwendet, um eine zusammenfassende Ansicht eines Datensatzes zu erstellen, möglicherweise mit Querverweisen auf andere Datensätze. Schließlich kann die Ad-hoc-Berechnung zur Unterstützung einer Vielzahl von Algorithmen verwendet werden, z. B. zum Aufbau eines Suchindex oder zur Klassifizierung durch maschinelles Lernen. Häufig sind solche Algorithmen iterativ und erfordern mehrere Durchläufe über die Daten.

5) Streaming

Herkömmliche Data Warehouses unterstützen analytische Batch-Abfragen. Im Open-Source-Ökosystem und in kommerziellen Produkten sehen wir jedoch eine Konvergenz von hybriden Batch- und Streaming-Architekturen. Spark unterstützt beispielsweise sowohl die Stapelverarbeitung als auch die Stream-Verarbeitung mit Spark Streaming. Apache Flink ist ein weiteres Projekt, das darauf abzielt, Batch- und Stream-Verarbeitung zu kombinieren. Dies ist eine natürliche Entwicklung, da es grundsätzlich möglich ist, sehr ähnliche APIs und Sprachen zu verwenden, um eine Batch- oder Streaming-Berechnung zu spezifizieren. Es ist nicht mehr notwendig, zwei völlig unterschiedliche Systeme zu haben. Eine einheitliche Architektur macht es sogar einfacher, verschiedene Arten von Datenquellen zu entdecken.

Hybride Batch- und Streaming-Architekturen werden sich auch im Hinblick auf IoT-Daten als äußerst vorteilhaft erweisen. Streaming kann sowohl für die Analyse von und die Reaktion auf Daten in Echtzeit als auch für die Aufnahme von Daten in den Data Lake zur Stapelverarbeitung verwendet werden. Moderne, leistungsstarke Messaging-Systeme wie Apache Kafka können bei der Vereinheitlichung von Batch und Streaming helfen. Integrationstools können dabei helfen, Kafka zu füttern, Kafka-Daten in einem Streaming-Verfahren zu verarbeiten und einen Data Lake mit gefilterten und aggregierten Daten zu versorgen.

6) Zeitplanung und Arbeitsablauf

Die Orchestrierung im Data Lake ist eine zwingende Voraussetzung. Die Planung bezieht sich auf das Starten von Aufträgen zu bestimmten Zeiten oder als Reaktion auf einen externen Auslöser. Workflow bezieht sich auf die Festlegung von Auftragsabhängigkeiten und die Bereitstellung von Mitteln zur Ausführung von Aufträgen in einer Weise, dass die Abhängigkeiten eingehalten werden. Ein Auftrag kann eine Form der Datenerfassung, Datenumwandlung oder Datenbereitstellung sein. Im Zusammenhang mit einem Data Lake müssen sowohl die Planung als auch der Workflow eine Schnittstelle zu den zugrunde liegenden Datenspeicher- und Datenverarbeitungsplattformen bilden. Für das Unternehmen sollten Planung und Workflow über eine grafische Benutzeroberfläche und nicht über die Befehlszeile definiert werden.

Das Open-Source-Ökosystem bietet einige Low-Level-Tools wie Oozie, Askaban und Luigi. Diese Tools bieten Befehlszeilenschnittstellen und eine dateibasierte Konfiguration. Sie sind hauptsächlich für die Orchestrierung der Arbeit innerhalb von Hadoop nützlich.

Kommerzielle Datenintegrationstools bieten hochwertige Schnittstellen für die Planung und den Arbeitsablauf, so dass diese Aufgaben für ein breiteres Spektrum von IT-Fachleuten leichter zugänglich sind.

7) Metadaten und Governance

Zwei Bereiche, die bei Data-Lake-Produkten wie Hadoop noch weniger ausgereift sind, sind Metadaten und Governance. Metadaten beziehen sich auf Aktualisierungs- und Zugriffsanfragen sowie auf das Schema. Diese Funktionen werden im Kontext des herkömmlichen relationalen Data Warehouse bereitgestellt, wo Aktualisierungen leichter zu verfolgen sind und das Schema stärker eingeschränkt ist.

Die Arbeit im Open-Source-Bereich an Metadaten und Governance schreitet voran, aber es gibt keine weit verbreitete Einigkeit über eine bestimmte Implementierung. Apache Sentry beispielsweise hilft bei der Durchsetzung rollenbasierter Berechtigungen für Hadoop-Daten. Es funktioniert mit einigen, aber nicht mit allen Hadoop-Datenverwaltungstools.

Unternehmen, die Metadaten und Governance besser verwalten möchten, setzen derzeit benutzerdefinierte Lösungen ein oder müssen sich mit eingeschränkten Funktionen begnügen. Kürzlich hat LinkedIn ein internes Tool namens WhereHows veröffentlicht, das die Fähigkeit zum Sammeln, Entdecken und Verstehen von Metadaten im Data Lake verbessern könnte. Es ist zu erwarten, dass die Anbieter kommerzieller Datenintegrationslösungen neue Möglichkeiten zur Verwaltung von Metadaten und Governance im Data Lake des Unternehmens entwickeln.

8) Sicherheit

Die Sicherheit in den verschiedenen Data Lake-Backends entwickelt sich ebenfalls weiter und wird auf verschiedenen Ebenen behandelt. Hadoop unterstützt Kerberos-Authentifizierung und UNIX-ähnliche Autorisierung über Datei- und Verzeichnisberechtigungen. Apache Sentry und der Record Service von Cloudera sind zwei Ansätze für eine feinkörnige Autorisierung innerhalb von Hadoop-Datendateien. Es gibt keine allgemeingültige Vereinbarung über einen Autorisierungsansatz, und folglich unterstützen nicht alle Hadoop-Tools alle verschiedenen Ansätze. Dies macht eine Standardisierung derzeit schwierig, da Sie die Tools, die Sie verwenden können, je nach gewähltem Autorisierungsansatz einschränken werden.

Das Fehlen eines Standards macht es für kommerzielle Produkte schwierig, zum jetzigen Zeitpunkt umfassende Unterstützung zu bieten. In der Zwischenzeit können kommerzielle Produkte jedoch als Tor zum Data Lake dienen und eine gute Menge an Sicherheitsfunktionen bieten, die Unternehmen dabei helfen können, ihre Sicherheitsanforderungen kurzfristig zu erfüllen und dann standardisierte Mechanismen zu übernehmen, sobald diese verfügbar sind.

Zu den Tools für die Verwaltung und Analyse von Daten in einem Data Lake gehören

Einige gängige Tools, die für die Verwaltung und Analyse von Daten in einem Data Lake verwendet werden, sind:

  1. Apache Hadoop: Ein Open-Source-Framework, das häufig zum Aufbau und zur Verwaltung von Data Lakes verwendet wird. Es umfasst ein verteiltes Speichersystem (HDFS) zum Speichern von Daten sowie eine Reihe von Tools für die Verarbeitung und Analyse von Daten, wie MapReduce, Pig und Hive.
  2. Apache Spark: Ein verteiltes Open-Source-Rechnersystem, das für die Hochgeschwindigkeitsdatenverarbeitung in großem Maßstab konzipiert ist. Es wird häufig für die Analyse von Daten in einem Data Lake verwendet und umfasst eine Reihe von Tools und Bibliotheken für die Arbeit mit Daten, z. B. SQL und Bibliotheken für maschinelles Lernen.
  3. Elasticsearch: Eine Such- und Analyse-Engine, die üblicherweise zur Indizierung und Abfrage von Daten in einem Data Lake verwendet wird. Sie ist darauf ausgelegt, große Datenmengen zu verarbeiten und schnelle und flexible Suchfunktionen bereitzustellen.
  4. Amazon S3: Ein Cloud-basierter Speicherdienst, der häufig zum Speichern von Daten in einem Data Lake verwendet wird. Er ist skalierbar, langlebig und sicher und umfasst eine Reihe von Funktionen, die die Verwaltung und Analyse von Daten in großem Umfang erleichtern.
  5. Tableau: Ein beliebtes Business-Intelligence- und Datenvisualisierungstool, das häufig zur Untersuchung und Analyse von Daten in einem Data Lake verwendet wird. Es ermöglicht Benutzern, interaktive Dashboards und Visualisierungen zu erstellen, die ihnen helfen, komplexe Datensätze zu verstehen.

Die Data-Lake-Infrastruktur bezieht sich auf die Hardware, Software und Dienste, die zum Aufbau und zur Verwaltung eines Data Lakes verwendet werden.

Dienste, die für den Aufbau und die Verwaltung eines Data Lake verwendet werden

Dazu gehören in der Regel:

  1. Verteilte Speichersysteme, wie Apache Hadoop HDFS oder Amazon S3, die zur skalierbaren und fehlertoleranten Speicherung großer Datenmengen verwendet werden.
  2. Datenverarbeitungs- und Analysewerkzeuge wie Apache Spark oder Elasticsearch, die zur Durchführung verschiedener Operationen mit den Daten verwendet werden, z. B. Bereinigung, Umwandlung und Aggregation.
  3. Data Governance- und Sicherheitstools wie Apache Ranger oder AWS IAM werden verwendet, um den Zugriff auf die Daten zu kontrollieren, ihre Qualität zu gewährleisten und sie vor unbefugtem Zugriff oder Manipulation zu schützen.
  4. Datenintegrations- und ETL-Tools wie Apache NiFi oder Talend, die dazu dienen, Daten aus verschiedenen Quellen zu extrahieren, in ein einheitliches Format umzuwandeln und in den Data Lake zu laden.
  5. Datenvisualisierungs- und Berichtstools wie Tableau oder Qlik werden verwendet, um die Daten im Data Lake zu untersuchen und zu analysieren sowie Dashboards und Berichte zu erstellen, die mit anderen geteilt werden können.

Die Quintessenz

Der Hype um Big Data, Data Lake, Data Lake-Produkte und die neuen Technologien, die jetzt zur Verfügung stehen, um die Leistungsfähigkeit der Plattform zu nutzen, ist groß. Mit zunehmender Marktreife wird es immer wichtiger, das Ziel vor Augen zu haben und einen strategischen Plan zu erstellen, der sich skalieren und erweitern lässt, wenn sich auch Ihre Anforderungen weiterentwickeln. Suchen Sie nach einem modernen Datenintegrationsanbieter, der über technische Tiefe und Breite in der neuen Welt sowie über praktische Erfahrung mit Unternehmensimplementierungen und Partnerschaften verfügt. Geben Sie sich nicht mit der immer gleichen Datenintegration zufrieden, wenn Sie Ihre Vision eines unternehmensweiten Data Lake zur Unterstützung von Analysen und Erkenntnissen der nächsten Generation entwickeln.

Nächste Schritte:

SnapLogic ist der Marktführer im Bereich der generativen Integration.
Kategorie: Daten
Acht Datenmanagement-Anforderungen für den Enterprise Data Lake

Wir stellen ein!

Entdecken Sie Ihre nächste große Karrierechance.