Data Mesh: Ist Zentralisierung oder Dezentralisierung das Richtige für Ihr Unternehmen?

Nach Angaben von Accenture wurden 90 % der weltweiten Daten in den letzten 10 Jahren erzeugt. Das Beratungsunternehmen sagt außerdem voraus, dass bis 2025 etwa 175 Zettabyte (oder 175 Billionen Gigabyte) an Daten erzeugt werden.

Trotz der gigantischen Datenmenge, die gesammelt wird, kostet schlechte Datenqualität die Unternehmen jedes Jahr durchschnittlich 12,9 Millionen Dollar. Wie können Unternehmen also die Datenqualität aufrechterhalten, während sie immer mehr Informationen sammeln?

Die Antwort hängt davon ab, wie Sie Ihre Daten verwalten wollen. In den letzten Jahren haben Unternehmen einen evolutionären Trend in der Datenarchitektur beobachtet: von der Zentralisierung der Daten, wie z. B. im Data Warehouse und im Data Lake, zur Dezentralisierung der Daten, wie sie im Data Mesh zu sehen ist. Für Unternehmen, die das Beste aus der Business Intelligence herausholen wollen, hat ihr Datenverwaltungsansatz einen erheblichen Einfluss auf ihre Fähigkeit, zuverlässige datengestützte Entscheidungen zu treffen.

In diesem Artikel untersuchen wir das Potenzial der Datenzentralisierung und -dezentralisierung zur Verbesserung der Auffindbarkeit, Zugänglichkeit, Interoperabilität und Sicherheit von Daten.

Überblick über die Dezentralisierung von Daten

Die Datendezentralisierung bezieht sich auf einen Datenverwaltungsansatz, bei dem die Speicherung, Bereinigung, Optimierung, Ausgabe und Nutzung von Daten verteilt sind, ohne dass ein zentrales Repository erforderlich ist. Bei der Datendezentralisierung werden Datenprodukte auf verschiedene Unternehmensabteilungen aufgeteilt, um die Komplexität und die Herausforderungen im Umgang mit großen Datenmengen, wechselnden Schemata, Ausfallzeiten, Upgrades und Rückwärtskompatibilität von Daten zu verringern.

Das Datennetz ist ein Beispiel für einen Datenverwaltungsrahmen, der den Ansatz der Datenzentralisierung verfolgt.

Was ist ein Datennetz?

Ein Datengeflecht ist ein Rahmenwerk für die Verwaltung von Unternehmensdaten, das definiert, wie geschäftsbereichsspezifische Daten so verwaltet werden können, dass die Geschäftsbereiche Eigentümer ihrer Daten sind und diese verwalten können. Es befähigt bereichsspezifische Datenproduzenten und -verbraucher, Datenpipelines zu sammeln, zu speichern, zu analysieren und zu verwalten, ohne dass ein zwischengeschaltetes Datenverwaltungsteam erforderlich ist.

Das Datennetz hat seinen Ursprung in der verteilten Datenverarbeitung, bei der Softwarekomponenten von mehreren Computern gemeinsam genutzt werden, die als System zusammenarbeiten. Im Datengeflecht ist das Eigentum an den Daten auf verschiedene Geschäftsbereiche verteilt, und jeder Bereich ist für die Erstellung seiner Datenprodukte verantwortlich. Die Idee des Datennetzes wurde erstmals von Zhamak Dehghani, einem Technologieberater bei Thoughtworks, im Jahr 2019 definiert.

Das Datengeflecht ermöglicht auch eine einfachere Kontextualisierung von Daten, um tiefere Einblicke zu gewinnen, und erleichtert gleichzeitig die Zusammenarbeit zwischen den Eigentümern der Bereiche, um Lösungen zu entwickeln, die auf spezifische Geschäftsanforderungen zugeschnitten sind.

In der Architektur des Datennetzes werden Informationen aus verschiedenen Quellen gespeichert, und ein Datenbildungsdienst stellt die Datenprodukte als Tabellen mit Berechtigungen zur Verfügung. Der Dateneigentümer kann auch APIs erstellen und bereitstellen, die von anderen Benutzern genutzt werden können. Das Datennetz verfügt auch über einen Datenkatalog, der Metadaten wie Tabellennamen, Spalten und benutzerdefinierte Tags speichert.

Zu den wichtigsten Vorteilen eines Datennetzes gehören:

Dezentralisierung des Dateneigentums und der Datenverarbeitung, um die Agilität Ihrer Geschäftsbereiche zu beschleunigen und relevante Entscheidungen zu treffen

Fachteams erhalten die Unabhängigkeit, den für ihre Bedürfnisse am besten geeigneten Datentechnologie-Stack zu wählen
Schaffung von Transparenz in funktionsübergreifenden Teams durch Verringerung der Wahrscheinlichkeit isolierter Datenteams
Erleichterung der Datenhoheit und der Datenresidenz zur Gewährleistung der Übereinstimmung mit den Data-Governance-Vorschriften

Überblick über die Datenzentralisierung

Die Datenzentralisierung ist eine Funktion der traditionellen monolithischen Dateninfrastruktur, die die Speicherung, Bereinigung, Optimierung, Ausgabe und den Verbrauch von Daten an einem zentralen Ort übernimmt. Während die Datenzentralisierung sicherstellt, dass die Daten von einer zentralen Quelle aus verwaltet werden, ist sie auch darauf ausgelegt, die Daten von vielen verschiedenen Punkten aus zugänglich zu machen.

Die Zentralisierung von Daten minimiert Informationssilos, ermöglicht eine bessere Zusammenarbeit und erleichtert es, die potenziellen Auswirkungen aufkommender Trends oder vorgeschlagener Änderungen in verschiedenen Abteilungen zu erkennen und vorherzusagen. Eine zentralisierte Datenansicht hilft auch dabei, die Datenstrategie mit der Geschäftsstrategie abzustimmen, indem sie eine 360°-Sicht auf Trends, Erkenntnisse und Vorhersagen bietet, sodass alle im Unternehmen an einem Strang ziehen können.

Das Data Warehouse und der Data Lake sind Beispiele für Datenmanagementsysteme, die den Ansatz der Datenzentralisierung verfolgen.

Was ist ein Data Warehouse?

Ein Data Warehouse ist ein System zur Verwaltung von Unternehmensdaten der ersten Generation, das proprietäre Daten aus verschiedenen Quellen auf einer zentralen Plattform sammelt und verwaltet, um Business Intelligence zu synthetisieren.

Die Architektur eines Data Warehouse erstreckt sich über mehrere Ebenen, wobei die oberste Ebene ein Front-End-Client ist, über den Sie auf Analyse-, Data-Mining- und Berichtstools zugreifen können. Auf der mittleren Ebene befindet sich die Analyse-Engine, und die unterste Ebene ist der Datenbankserver.

Das Schema des Data Warehouse ist ein Schema-on-write. Es kann mehrere Datenbanken zulassen, und jede Datenbank ist in einem hierarchischen Format von Dateien und Ordnern organisiert.

Zu den wichtigsten Vorteilen eines Data Warehouse gehören:

Konsolidierung von Daten aus mehreren Quellen
Ermöglichung der Analyse von historischen Daten
Sicherstellung von einheitlichem Datenformat, Qualität und Genauigkeit
Erleichterung der Trennung von Transaktionsdatenbanken und Analysedatenbanken zur Verbesserung der Leistung

Die Erstellung von Datenprodukten aus dem Data Warehouse ist jedoch in der Regel kompliziert, zeitaufwändig und potenziell kostspielig, da die für das Laden der Daten erforderlichen Ressourcen meist unterschätzt werden.

Was ist ein Data Lake?

Ein Data Lake ist ein zentraler Speicher für unverarbeitete Rohdaten aus verschiedenen Quellen, für die es keinen konkreten Plan gibt, wie und wann sie verwendet werden. Es handelt sich um ein Unternehmensdatenmanagementsystem der zweiten Generation, das auf die Verwaltung von Big Data ausgerichtet ist.

Die Architektur eines Data Lake verwaltet Informationen in der Cloud mit Hilfe einer Data Lake-Konsole und einer Data Lake-CLI im Frontend. Im Backend stehen Ihnen die Data Lake RESTFUL API, Lambda-Funktionen, Verzeichnisse, ein Datenkatalog, ein OpenSearchServer und mehr zur Verfügung.

Der Data Lake ermöglicht Ihnen die Verwaltung mehrerer Datentypen - einschließlich relationaler und nicht-relationaler Daten - in einem granularen Rohformat innerhalb einer flachen Architektur. Da die Daten in ihrem Rohzustand gespeichert werden, ist das Schema des Data Lake ein Schema-on-read, das zum Zeitpunkt der Datenanalyse erstellt wird, sodass Sie schneller Abfrageergebnisse erhalten.

Zu den wichtigsten Vorteilen des Data Lake gehören:

Erleichterung der schnelleren Entwicklung von Modellen des maschinellen Lernens
Förderung einer schnelleren Datenbewegung durch Import großer Datenmengen in Echtzeit
Verbesserung des Crawlens, Katalogisierens, Indexierens und der Sicherheit von Daten
Befähigung von F&E-Teams, Hypothesen zu testen, Annahmen zu verfeinern und Ergebnisse zu verfolgen

Während Unternehmensanalysten das Data Warehouse nutzen können, erfordert der Data Lake das Fachwissen von Datenwissenschaftlern und Datenentwicklern mit spezialisierten Tools, um komplexe Datensätze zu navigieren, da mangelhafte Datenintegrität und Sicherheitslücken von Nicht-Experten den Data Lake in einen toten Datensumpf verwandeln könnten.

Wann ist ein zentralisierter Datenverwaltungsansatz richtig?

Zentralisierte Datenlösungen wie Data Lakes und Data Warehouses sind in einigen Fällen sinnvoll:

Wenn Ihr Unternehmen gerade erst mit der Datenverwaltung beginnt und Sie nur wenige Geschäftsbereiche oder einen minimalen Datenbestand haben. Dies ist besonders dann relevant, wenn Sie funktionsübergreifende Teams haben, in denen die Mitarbeiter mehrere Aufgaben wahrnehmen. Es ist vielleicht besser, ein zentrales Datenteam zu haben, als für jede Funktion ein eigenes Datenteam zu bilden.
Wenn Big Data für Ihren Geschäftsbetrieb von entscheidender Bedeutung ist, müssen Sie eine riesige Datenmenge speichern, aufbereiten und analysieren. Bei der Datenzentralisierung werden alle Geschäftsdaten an einem Ort gesammelt, so dass es für das Datenteam am einfachsten ist, die Daten zu bereinigen und aufzubereiten. Die Datenzentralisierung ermöglicht es dem Datenteam außerdem, einen einheitlichen Compliance-Prozess zur Wahrung der Datenintegrität durchzuführen.
Wenn Ihr Budget für die Datenverwaltung gering ist und Sie erschwinglichen Speicher für große Mengen an rohen, strukturierten oder unstrukturierten Daten benötigen. Zentralisierte Datenverwaltungssysteme tragen zur Senkung der Speicher- und Rechenkosten bei, da Sie die Daten auf einem einzigen Server verwalten oder eine Cloud-Lösung nutzen können, bei der der Anbieter die Gemeinkosten trägt.

Wann ist ein Datennetz ein besserer Ansatz für die Datenverwaltung?

Ein Datengeflecht steht für den Übergang zu einer dezentralisierten Datenverwaltung auf betrieblicher und technologischer Ebene. Wenn Sie mehr Effizienz bei der Entwicklung von Datenprodukten in Ihrem Unternehmen benötigen, ist ein Datengeflecht ein Schritt in die richtige Richtung, um die Effizienz zu steigern, die Betriebskosten zu senken und tiefgreifende Geschäftserkenntnisse zu synthetisieren.

Die Verwendung eines Datennetzes kann auch in Betracht gezogen werden, wenn:

Ihre Teams müssen Daten aus verschiedenen heterogenen Quellen sammeln und sofort verarbeiten können. Das Datennetz ermöglicht den Abteilungen einen einfachen, lokalen Zugriff auf die benötigten Informationen.
Ihre Teams müssen auf Erkenntnisse oder Berichte zugreifen können, ohne ihre Datenanfragen bei einem zentralen IT- oder Datenteam einreichen zu müssen.

Sie müssen verschiedene Arten von strukturierten und unstrukturierten Daten kombinieren und analysieren. Die Tatsache, dass das Datennetz Daten in domänenspezifischen Gruppen verwaltet, sorgt für eine verbesserte Kontextualisierung in den Datenprodukten, die Ihre Teams erstellen.

Ist ein Data Warehouse, Data Lake oder Data Mesh das Richtige für Ihr Unternehmen? Das kommt darauf an

Die von Ihnen gewählte Datenverwaltungsarchitektur hängt von Ihren individuellen Datenanforderungen und Ihren Plänen für die künftige Datenverwaltung ab.

Ob Sie sich für ein Data Warehouse, einen Data Lake oder ein Data Mesh entscheiden, hängt von Ihren Anforderungen an die Datenverwaltung und den verfügbaren Ressourcen ab. Wichtig ist jedoch, dass Sie sicherstellen, dass Ihre Datenplattform nicht zu einer Müllhalde für Daten wird. Vielmehr sollte es sich um ein optimiertes System handeln, das Sie in die Lage versetzt, Business Intelligence effizient zu synthetisieren.

Nächste Schritte:

In diesem Whitepaper erfahren Sie, wie Sie Ihr Cloud Data Warehouse auf Vordermann bringen können.

Erfahren Sie mehr darüber, wie SnapLogic die Zukunft des Data Warehouse in die Gegenwart bringt.

Informieren Sie sich in unserem Whitepaper über den Aufbau eines Unternehmens-Datensees.

Erfahren Sie mehr über die Rolle von SnapLogic im Enterprise Data Lake.

Lesen Sie, wie Sie Enterprise Automation implementieren und einen Data Lake oder ein DataWarehouse integrieren.

Michael Nixon

Ehemaliger VP für Cloud Data Marketing bei SnapLogic

Kategorie: Datenintegration SnapLogic

Themen: Data Mesh