Startseite ❯ Blog ❯ Moderne Unternehmensdatenarchitektur

Moderne Unternehmensdatenarchitektur

Durch SnapLogic

Veröffentlicht Juni 8, 2022

9 min gelesen

Daten sind ein wesentliches Gut, das jedes Unternehmen benötigt, um in der heutigen Wirtschaft erfolgreich zu sein. Der Wert von Datenbeständen kann jedoch nur dann realisiert werden, wenn sie strategisch, operativ, konsistent und genau im gesamten Unternehmen genutzt werden. Dies ist eine große Herausforderung. Heutzutage wenden sich Unternehmen Data-as-a-Service (DaaS) als Teil ihrer Cloud-Datenstrategie zu, um ein hohes Maß an SLA, Data Governance, Genauigkeit und Hochverfügbarkeit zu gewährleisten, das von Kunden, Geschäftsstrategie und Geschäftsprozessen gefordert wird. Um einen DaaS-Ansatz in vollem Umfang nutzen zu können, benötigen sie eine moderne Datenarchitektur sowie eine Roadmap und eine Methodik für den Weg dorthin.

Was ist eine Datenarchitektur?

Die von Datenarchitekten entwickelte Datenarchitektur standardisiert die Art und Weise, wie Unternehmen Daten erfassen, speichern, umwandeln, verteilen und nutzen, um Datenanalysten und Mitarbeitern im Unternehmen zu helfen, bessere Entscheidungen auf der Grundlage von Echtzeit-Business Intelligence zu treffen. Die Datenarchitektur ist die Grundlage für die Datenmodellierung und die Informationsarchitektur, die beide die Daten im gesamten Unternehmen nutzbar machen.

Die Datenarchitektur ist zwar nicht neu, aber die moderne Unternehmensdatenarchitektur (oder moderne Datenarchitektur) hat sich mit der zunehmenden Verlagerung von Unternehmen in die Cloud weiterentwickelt. Nur die Cloud ermöglicht die Geschwindigkeit, Skalierbarkeit und Benutzerfreundlichkeit, die für die Effektivität einer modernen Datenarchitektur erforderlich sind. In dem Maße, in dem Unternehmen auf Cloud-basierte Infrastrukturen umsteigen, verändert sich auch ihre Datenarchitektur.

Was ist eine moderne Datenarchitektur?

Eine moderne Datenarchitektur konzentriert sich darauf, die Daten auf die von der Cloud bereitgestellten Funktionen abzustimmen. Herkömmliche Datenarchitekturen basierten auf lokalen Datenmodellen, die viel Zeit für die Datenverarbeitung und das Datenmanagement in Anspruch nahmen. Da die Infrastruktur durch die Cloud abstrahiert wird, konzentriert sich die moderne Datenarchitektur darauf, den Zugriff auf die Daten so einfach und nützlich wie möglich für das Unternehmen und den Kunden zu gestalten. Sie erleichtert den Zugang, die Geschwindigkeit, die Zusammenarbeit, die Echtzeitanalyse und die Konsistenz.

Moderne Datenarchitektur ist:

Entwickelt für die Nutzung durch Endbenutzer. Die Cloud ermöglicht es den Endnutzern zu bestimmen, welche Daten sie für Geschäftsentscheidungen benötigen, und den Datenarchitekten, den Datenzugriff so zu gestalten, dass sie die benötigten Daten erhalten.
Automatisiert mit Datenpipelines und Datenflüssen. Niemand hat Zeit, auf eine langsame Datenverarbeitung zu warten. Mit der Cloud und der Datenintegration können Unternehmen den gesamten Datenverwaltungsprozess automatisieren, so dass die Daten reibungslos und ungehindert überall hinfließen können, wo sie im Unternehmen benötigt werden, ohne dass die Data Governance beeinträchtigt wird. Datenintegration ist der Schlüssel, um sicherzustellen, dass alle Teile des Ganzen miteinander verbunden sind.
Kuratiert durch KI/ML. Moderne Unternehmensdatenarchitekturen nutzen die Leistungsfähigkeit von künstlicher Intelligenz (KI) und maschinellem Lernen (ML), um die Datenverarbeitung zu automatisieren, neue Datentypen zu erkennen, Daten zu bereinigen, Datenqualitätsprobleme zu beheben, Data Mining durchzuführen, die Einhaltung von Datenstandards zu gewährleisten und Datenanalysen und Erkenntnisse zu gewinnen. KI/ML ist der Schlüssel für die Geschwindigkeit und Genauigkeit der Automatisierung.
Skalierbar, um unvorhersehbare Anforderungen zu erfüllen. Daten werden in außerordentlichem Tempo erzeugt und verbraucht, und da Unternehmen mit schwankenden Verbraucheranforderungen zu kämpfen haben, müssen sie in der Lage sein, Daten automatisch und kostengünstig nach oben und unten zu skalieren.
Gemeinsame Nutzung für vertrauensvolle Zusammenarbeit. Die gemeinsame Nutzung von Daten ist wichtig, um sicherzustellen, dass jeder mit derselben Datenquelle arbeitet. Gemeinsame Daten helfen auch, Abteilungssilos aufzubrechen und eine einfachere, vertrauensvollere Zusammenarbeit zu fördern.
Sicherheit durch Design. Für die meisten Unternehmen sind Daten ihr wertvollstes Gut. Eine moderne Datenarchitektur berücksichtigt die Datensicherheit mit kontrolliertem Datenzugriff und Autorisierung sowie die Einhaltung von Datenschutzgesetzen und -vorschriften wie GDPR und HIPAA.

Wenn Sie eine Datenarchitektur von Grund auf in der Cloud erstellen, ist es einfach, diese Merkmale einzubauen. Die meisten Unternehmen arbeiten jedoch mit Legacy-Infrastrukturen vor Ort und in der Cloud, oft sogar in mehreren Clouds. Ihre Daten befinden sich an verschiedenen Orten und sind in der Regel stark isoliert. Datenmigrationen in die Cloud und Datenintegrationen haben Priorität.

Zusätzlich zu den sechs Merkmalen einer modernen Datenarchitektur sollten Sie sicherstellen, dass Ihr Design die folgenden Punkte unterstützt:

Unterstützt die Umstellung auf Selbstbedienung und verschiedene Arten von Nutzern (Integratoren, Datenwissenschaftler, Unternehmensleiter, Interessenvertreter)
Ermöglicht ein hypervernetztes Unternehmen (stellen Sie sich Daten als die Nerven vor, die jeden Teil des Körpers verbinden und Informationen bei Bedarf nahtlos weiterleiten)
Verlagerung der Berichterstattung auf prädiktive und präskriptive Analysen für Echtzeit-Einsichten, KI-gesteuerte Empfehlungen und sofortige Entscheidungsfindung
Zukunftssicherheit für neue Datenquellen, nachgelagerte Anwendungen und Anwendungsfälle

3 Etappen der Reise des modernen Datenunternehmens

Da Unternehmen sich digital transformieren und in die Cloud verlagern, durchlaufen sie in der Regel einen stufenweisen Prozess, um eine moderne Datenarchitektur zu erreichen.

Dieser Prozess kann in drei Hauptphasen unterteilt werden:

Stufe 1 - Vor-Ort

Die meisten Unternehmen verfügen über lokale Systeme mit den Tools zur Speicherung und Verarbeitung großer Datenmengen und zur Durchführung komplexer Umwandlungen. Diese Umgebung stellt aus den folgenden Gründen eine Herausforderung dar:

Es erfordert hohe Anfangsinvestitionen und hohe Betriebskosten (OpEx) für das erforderliche Personal.
Für die Verwaltung der Big-Data-Tools sind spezialisierte, engagierte Fachkräfte erforderlich.
Dies führt zu einer langsamen Reaktionszeit, einschließlich der Vorlaufzeit für den Kauf, den Versand und die Installation der Datenumgebung.

Unternehmen haben jahrzehntelang auf diese Weise gearbeitet und in der Regel hohe Investitionen in On-Premise-Modelle getätigt. Neben den finanziellen Investitionen ist auch das Risiko eines Datenverlusts oder der Unterbrechung benutzerdefinierter Integrationen zu groß für eine vollständige Cloud-Migration. Viele Unternehmen haben Daten, die ihrer Meinung nach auf ihren eigenen Servern verbleiben müssen, und wählen daher einen Hybrid-Cloud-Ansatz.

Stufe 2 - Cloud: Virtuelle Private Cloud (VPC)

Die zweite Phase der Cloud-Einführung ist das "Lift and Shift"-Verfahren, bei dem Unternehmen ihre lokalen Cluster einfach zu einem Cloud-Anbieter verlagern, der sie in einem virtuellen privaten Cloud-Netzwerk betreibt, und so von den Vorteilen von IaaS, wie z. B. den niedrigeren Kosten, profitieren können. Forrester berichtet, dass Unternehmen, die in der Cloud bereitstellen, 20 bis 60 Prozent der Infrastrukturkosten vor Ort einsparen, da die meisten ihre Server und Speicher überdimensioniert bereitstellen und diese Umgebungen dann verwalten müssen.

Diese Phase birgt jedoch noch einige große Herausforderungen, da sie:

keine Maßnahmen zur Bewältigung der Herausforderungen bei der Verwaltung und Erhaltung der Umwelt
Hat hohe OpEx
Lässt die Qualifikationslücke und die für die Verwaltung der in der VPC laufenden Dienste erforderlichen Fähigkeiten außer Acht
Hat eine langsame Reaktionszeit
Unterstützt keine nativen Cloud-Speicherdienste

Die Verwaltung von On-Premise- und privaten Clouds ist komplex, was Unternehmen oft dazu veranlasst, nach einem besseren Weg zur Verwaltung der Cloud-Umgebung zu suchen. Dies führt zu einem Wechsel zu verwalteten Cloud-Diensten.

Stufe 3 - Cloud: Big Data als Dienstleistung

In diesem Stadium haben die Unternehmen die Herausforderungen erkannt und gehen sie an, indem sie zu Cloud-verwalteten Diensten wie IBM, Microsoft und Google wechseln. Diese verwalteten Dienste befreien das Unternehmen von der Komplexität der Verwaltung und Wartung der Verarbeitungsumgebungen im großen Maßstab und senken wertvolle Betriebsausgaben.

Weitere Vorteile sind:

On-Demand-Funktionen, die Speicher- und Rechenressourcen nur bei Bedarf nutzen und so die Betriebskosten senken
Eine viel einfachere Methode zur Skalierung auf Terabyte-/Petabyte-Volumen
Schnellere Reaktionszeiten für geschäftliche Anforderungen

Außerdem sind Cloud-verwaltete Big-Data-Plattformen mit Cloud-Speicherdiensten konzipiert. Sie verfügen über eine native Integration mit dem Cloud-Speicher, sodass Sie den Cloud-Speicher als verteilte Speicherkomponente nutzen können, die für die Speicherung im Data Lake geeignet ist.

Lassen Sie uns ein wenig über die Datenspeicherung sprechen.

Moderne Datenarchitektur braucht Data Lakes

Ein Data Warehouse speichert strukturierte Daten (d. h. aus Transaktionssystemen). Es ist für die Analyse relationaler Daten optimiert, nicht für halb/unstrukturierte Daten. Bevor also von der Datenquelle in das Data Warehouse geschrieben wird, muss die Struktur definiert werden, und die Daten müssen bereinigt und transformiert werden. Das kostet Zeit und erschwert es, verwertbare Daten in der Geschwindigkeit zu erhalten, die ein Unternehmen benötigt. Außerdem sind die Kosten für das Data Warehousing angesichts der vielen neuen Daten, die zur Verfügung stehen, eigentlich unerschwinglich.

Data Lakes unterstützen moderne Datenarchitekturen.

Anders als ein Data Warehouse ist ein Data Lake eine Sammlung aller Datentypen: strukturiert, halbstrukturiert und unstrukturiert. Die Daten werden in ihrem Rohformat gespeichert, ohne dass eine Struktur oder ein Schema erforderlich ist. Tatsächlich müssen Sie die Datenstruktur nicht definieren, wenn sie erfasst werden, sondern nur, wenn sie gelesen werden. Da Data Lakes hoch skalierbar sind, unterstützen sie größere Datenmengen zu einem günstigeren Preis. Außerdem können Sie mit einem Data Lake Daten aus relationalen Quellen (z. B. relationalen Datenbanken) und aus nicht-relationalen Quellen (IoT-Geräte/-Maschinen, soziale Medien usw.) ohne ETL (Extrahieren, Transformieren, Laden) speichern, wodurch die Daten viel schneller für Analysen zur Verfügung stehen.

4 Merkmale einer modernen Unternehmensdatenarchitektur

Es gibt vier Hauptmerkmale einer modernen Unternehmensdatenarchitektur: 1) der Datenzyklus, 2) die Datenspeicherung, 3) eine Integrationsplattform und 4) die Datenbereitstellung.

Datenzyklus

Unternehmen stoßen ständig auf neue Datenquellen und müssen Daten erfassen, bevor sie den endgültigen Anwendungsfall kennen. Erfasste Daten werden extrahiert, um bekannte Anwendungsfälle aufzufüllen, aber auch für zukünftige, noch nicht definierte Anwendungsfälle vorgehalten. Anschließend müssen die eingehenden Daten an die Unternehmensstandards angepasst werden, um Governance, Qualität, Konsistenz, Einhaltung gesetzlicher Vorschriften und Genauigkeit für die nachgelagerten Verbraucher zu gewährleisten, unabhängig von deren Geschäftsanforderungen, Fähigkeiten oder Verständnis der Datenarchitektur. Nachdem die Daten erfasst und an die Unternehmensstandards angepasst wurden, bereiten die Veredelungsdienste die Daten für die spätere Anwendung und/oder die Anwendungsfälle vor.

Speicherung von Daten

Die Daten werden im Data Lake gespeichert. Stellen Sie sich den Data Lake als eine moderne Datenfabrik vor, und innerhalb des Sees gibt es "Container" für verschiedene Stufen der Datenverarbeitung. Der erste Container ist der Landecontainer, in dem eingehende Rohdaten unabhängig von ihrer Form, ihrem Transport oder ihrer Quelle empfangen werden. Hier landen die nicht gereinigten Daten. Hier wird entschieden, welche Rohdaten behalten werden sollen. Daten, die aufbewahrt werden sollen, werden in den Container für angepasste Daten verschoben.

Im "Conformed Container" werden die Rohdaten bereinigt und die Datenqualität sichergestellt. Der konforme Container stellt sicher, dass das Unternehmen mit einem konsistenten Datensatz arbeitet, der den Standards entspricht.

Als Nächstes kommt der Refinery-Container, der die Daten für das letztendliche Lieferziel vorbereitet, wobei es je nach Anwendungsfall Untergruppen von Refineries geben kann. Sobald die Daten verfeinert sind, werden sie für die Lieferung an ihr Ziel bereitgestellt. Nach der Auslieferung können sie in einen Arbeitsbereich für Datenwissenschaftler verschoben, für die langfristige Speicherung archiviert oder gelöscht werden.

Plattform zur Datenintegration

Die Integrationsplattform nimmt Daten aus verschiedenen Quellen auf und kombiniert sie, um eine einheitliche Ansicht zu bieten. In einer modernen Datenarchitektur muss die Integrationsplattform flexibel genug sein, um alle erforderlichen Datenquellen und -ziele sowie die Datendienste in jeder Phase des Datenzyklus zu unterstützen. Sie muss in der Lage sein, Daten mit und ohne Schema zu unterstützen und Metadaten zu verwalten. Darüber hinaus muss sie in der Lage sein, die für die Integration und Verarbeitung erforderlichen Daten zu verarbeiten:

Datenerfassung mit hoher Geschwindigkeit, Vielfalt und Volumen
Geringe Latenzzeit Application Integration
Verarbeitung großer Datenmengen unter Berücksichtigung der Konformität
Datenintegration von der Lieferung bis zum Ziel
API-Nutzung (wichtig für B2B-Ökosysteme)

Darüber hinaus müssen die oben genannten Szenarien einer breiten Anwendergemeinschaft zugänglich gemacht werden, die von hochqualifizierten IT-Fachleuten bis hin zu Geschäftsanwendern reicht, die als Reaktion auf ein sich schnell veränderndes Geschäftsumfeld ein Geschäftsfeldprojekt beschleunigen müssen. In modernen Unternehmen sind Analysten und Datenwissenschaftler gefordert, strategische Fragen zu beantworten und Innovationen in einem noch nie dagewesenen Tempo voranzutreiben, und können sich nicht den Luxus leisten, von einer IT-Organisation abhängig zu sein, die die dringend benötigten Informationen zur Verfügung stellt. Selbstbedienung ist nicht länger ein Luxus oder eine Annehmlichkeit, sondern eine geschäftskritische Anforderung. Die Fähigkeit, schnell Datenpipelines zu erstellen, ist von entscheidender Bedeutung, um das Geschäft im digitalen Zeitalter mit der erforderlichen Geschwindigkeit voranzutreiben.

Lieferung von Daten

Und schließlich müssen die Daten an die entsprechenden Ziele geliefert werden. Der sichere Datenzugriff ist ein wesentlicher Bestandteil der modernen Datenarchitektur. Governance, Sicherheit, rollenbasierte Zugriffskontrolle (RBAC), SLA, Drosselung und Nutzungsanalyse sind entscheidend für die Bereitstellung von Daten an die vorgesehenen Nutzer, ob interne Mitarbeiter oder externe Partner.

Unternehmen, die einen Data-as-a-Service-Ansatz verfolgen, stellen ein Höchstmaß an Verfügbarkeit, Zugänglichkeit und Kundenerfahrung sicher, ohne die Kosten für ständige IT-Feuerwehraktionen oder die Gefährdung der Sicherheit oder des internen geistigen Eigentums in Kauf nehmen zu müssen. Die Daten werden an ihre endgültigen Bestimmungsorte geliefert, zu denen Data Marts, Anwendungen, Dateien, Datenpools, Data Science Workbenches, KI-fähige Lösungen und API-Ökosysteme gehören.

Aufbau einer robusten modernen Datenarchitektur

Eine robuste, moderne Unternehmensdatenarchitektur stellt sicher, dass Unternehmen über die nötige Zugänglichkeit, Geschwindigkeit, Flexibilität und Zuverlässigkeit verfügen, um jede Datenquelle zu optimieren und sie für bessere Geschäftsentscheidungen zu nutzen. SnapLogic bietet Datenintegration über seine intelligente Integrationsplattform als Service an und unterstützt Unternehmen beim Aufbau moderner Datenarchitekturen, um ihre Datenanforderungen zukunftssicher zu machen.