Die Datenreise: Vom Data Warehouse über Data Marts zu Data Lakes

Die Reise der Daten: Vom Data Warehouse über Data Marts zu Data Lakes

Von Mark Gibbs

Veröffentlicht September 19, 2018

3 min gelesen

Mit der zunehmenden Anerkennung von Daten als Unternehmenswährung des digitalen Zeitalters werden neue Fragen aufgeworfen, wie diese Daten als Teil einer allgemeinen Unternehmensdatenarchitektur erfasst, verwaltet und genutzt werden sollten.

Data Warehouses: Das Modell der Wahl

In den letzten Jahrzehnten waren Data Warehouses das Modell der Wahl, mit dem Unternehmen strukturierte Daten aus operativen Systemen wie Enterprise Resource Planning (ERP) und Supply Chain management (SCM) Plattformen extrahierten. Die Unternehmen haben die Daten konsolidiert und zentralisiert und nutzen Business-Intelligence- und Entscheidungsunterstützungstools, um detaillierte, historische Berichte und Analysen zu erstellen. Während das Data Warehouse als zentralisiertes, vielseitig einsetzbares Repository unter der Obhut der IT-Abteilung dient, sind Data Marts als Untergruppe der Technologie entstanden, die auf die spezifischen Berichtsanforderungen einer bestimmten Abteilung oder Geschäftsfunktion ausgerichtet ist. Data Warehouses werden mit einem Top-Down-Ansatz aufgebaut und speichern detaillierte, strukturierte Daten, während Data Marts in der Regel von unten nach oben aufgebaut werden und den Zweck haben, eine zusammengefasste Form ausgewählter Daten zu speichern.

Beide Ansätze haben jahrelang erfolgreich nebeneinander existiert. Aber das Aufkommen größerer, vielfältigerer Daten - einschließlich unstrukturierter Informationen wie Weblogs, Bilder, Videos, Direktnachrichten und des nahezu endlosen Stroms von Echtzeitdaten aus dem Internet der Dinge (IoT) - stellt Herausforderungen dar, für die die traditionellen Data-Warehouse/Data-Mart-Architekturen einfach nicht gerüstet sind. Auch die zentralisierte Vision eines einzigen Data-Warehouse-Speichers hat sich nie vollständig verwirklicht, so dass die meisten Unternehmen eine Vielzahl von Datensilos haben, die eine effektive Entscheidungsfindung behindern können.

Umstellung auf Datenseen

Eine Studie von Vanson Bourne hat ergeben, dass unzusammenhängende Daten, die durch Altsysteme und veraltete Datenarchitekturen verbreitet werden, die Unternehmen viel Geld kosten. Laut der Umfrage unter IT-Führungskräften und Geschäftsanwendern verlieren Unternehmen in den USA und im Vereinigten Königreich jährlich 140 Milliarden US-Dollar an verschwendeter Zeit und Ressourcen, an Doppelarbeit und an verpassten Chancen aufgrund unzusammenhängender Daten. Mehr als die Hälfte der Befragten (56 Prozent) gaben an, dass Datensilos ein Hindernis für die Erreichung der Geschäftsziele ihres Unternehmens darstellen.

Hier kommt der Data Lake ins Spiel, die neueste Version einer zentralisierten Plattform für die Erfassung und Verarbeitung von Daten, diesmal mit einer flachen, schemafreien Architektur, die in der Regel auf Hadoop basiert und für die allgemeine Datenverarbeitung optimiert ist. Wie ein Data Warehouse kann der Data Lake verschiedene Datenquellen speichern, aber im Gegensatz dazu müssen die Daten während des Erfassungsprozesses nicht bereinigt und umgewandelt werden. Das Fehlen von Strukturen und vordefinierten Schemata verleiht dem Data Lake mehr Vielseitigkeit, wodurch er sich gut für die Datenermittlung und ein breiteres Spektrum von Analyseanwendungen eignet. Darüber hinaus ist ein Data Lake in der Lage, Daten in Echtzeit aufzunehmen und zu verarbeiten, was der Unmittelbarkeit der heutigen digitalen Geschäftsanwendungen besser entspricht.

Ergänzend, nicht ersetzend

Während einige den Data Lake als Ersatz für das Data Warehouse anpreisen, sehen viele Datenmanagement-Experten das nicht so. Vielmehr sehen sie die beiden Technologien als komplementär an, wobei jede ihren eigenen Anwendungsfall bedient. So eignet sich das Data Warehouse beispielsweise gut für Geschäftsanwender, die mit voraggregierten und vorintegrierten Informationen arbeiten müssen, die für historische Analyseanwendungen bestimmt sind. Data Lakes hingegen eignen sich gut für Datenwissenschaftler und andere, die mit Rohdaten arbeiten wollen, vielleicht um auf maschinellem Lernen basierende Modelle zu erstellen, und die eine schnelle Entdeckung, Erkundung und Prüfung benötigen - Prozesse, die mit der neuen Generation von präskriptiven und prädiktiven Analysen zusammenhängen.

Bei der Planung eines Data Lake ist eines klar: Unternehmen müssen eine neue Architektur entwerfen und in Tools investieren, die die Integration ermöglichen und die End-to-End-Verarbeitung unterstützen, einschließlich Datenerfassung, Datenumwandlung und Datenzugriff. Mit einer solchen Infrastruktur können Unternehmen die nächste Generation datengesteuerter Anwendungen entwickeln, die der Motor für den digitalen Geschäftserfolg sein werden.