Wie man eine Datenpipeline aufbaut

5 Minuten lesen

McKinsey prognostiziert, dass bis zum Jahr 2025 fast alle Mitarbeiter im Rahmen ihrer Arbeit regelmäßig mit Daten arbeiten müssen. Was unternimmt Ihr Unternehmen, um sich auf diesen Datenbedarf vorzubereiten?

Beginnen Sie mit einer Datenpipeline. Durch den Aufbau einer Datenpipeline können Sie mehrere Datenquellen miteinander verbinden, die Daten zwischen diesen Quellen verschieben und gleichzeitig dafür sorgen, dass die von Ihrem Team verwendeten Daten jederzeit verfügbar, genau, relevant und aktuell sind.

Identifizieren von Datenquellen

Der erste Schritt beim Aufbau einer Datenpipeline besteht darin, die Datenquellen zu ermitteln. Welche Daten müssen in die Pipeline aufgenommen werden? Wo befinden sich diese Daten derzeit? Identifizieren Sie Ihre Quellen.

Listen Sie alle potenziellen Datenquellen auf, die in die Pipeline aufgenommen werden können. Bei diesen Datenquellen kann es sich um Datenbanken, Web-APIs und Flat Files handeln. Jede Datenquelle, die Sie bereits nutzen oder voraussichtlich nutzen werden, sollte in diese Liste aufgenommen werden.

Prüfen Sie dann jede Quelle und bewerten Sie ihre Genauigkeit und ihren Wert für die Pipeline. Möglicherweise gibt es Quellen, die jetzt verwendet werden, aber nicht mehr notwendig sind, wenn Sie eine Pipeline aufbauen, oder es gibt Quellen, die in den letzten Jahren verwendet wurden, aber für die Ziele Ihres Unternehmens nicht mehr relevant sind. Notieren Sie, wie jede Datenquelle zu Ihren aktuellen und zukünftigen Zielen passt, und entfernen Sie die Datenquellen, die nicht erforderlich sind.

Einrichten eines Datenverarbeitungsplans

Sobald die Datenquellen identifiziert sind, besteht der nächste Schritt darin, einen Datenverarbeitungsplan aufzustellen. Welche Datenumwandlung, -bereinigung und/oder -formatierung ist erforderlich, um die Daten für Ihre speziellen Ziele nutzbar zu machen? Ihr Datenverarbeitungsplan sollte alle Schritte aufzeigen, die Ihre Daten durchlaufen müssen, um nützlich zu sein.

Je nach Datenquelle kann der Plan unterschiedliche Verarbeitungs- und Bereinigungsstufen erfordern. Wenn die Daten aus einer Datenbank stammen, müssen sie möglicherweise nur minimal bereinigt werden, da die Daten bereits strukturiert sind. Kommen die Daten jedoch aus einer flachen Datei, müssen sie möglicherweise stärker verarbeitet und bereinigt werden, um sicherzustellen, dass sie das richtige Format haben und für ihren Zweck verwendbar sind.

Schritte der Datenverarbeitung:

  • Beim De-Identifizieren werden identifizierende Informationen aus den Daten entfernt, so dass Personen anhand dieser Daten nicht wiedererkannt werden können. Dazu können Informationen wie Telefonnummern oder Privatadressen gehören.
  • Bei der Datentransformation werden Rohdaten in ein Format und eine Struktur umgewandelt, die für die Analyse und Berichterstattung besser geeignet sind (z. B. Aggregation von Daten, Zusammenführung von Datensätzen oder Konvertierung von Datentypen).
  • Bei der Datenbereinigung werden fehlerhafte, unvollständige, irrelevante oder doppelte Daten entfernt oder geändert (z. B. durch Entfernen von Ausreißern, Ergänzen fehlender Werte oder Normalisieren von Daten).
  • Bei der Datenvalidierung wird überprüft, ob die Daten korrekt und vollständig sind (z. B. ob die E-Mail-Adressen echt sind oder die Telefonnummern vollständig sind).
  • Bei der Datenanreicherung werden bestehende Datensätze mit zusätzlichen Daten angereichert, um sie nützlicher zu machen (z. B. Anreicherung der Datei eines potenziellen Kunden mit zusätzlichen Informationen, wie der Größe seines Unternehmens).
  • Die Datensicherheit schützt Daten vor unbefugtem Zugriff (z. B. durch Verschlüsselung, Datenmaskierung oder Auditing).

Einrichten der Ausgabe

Nachdem der Plan für die Datenverarbeitung steht, müssen Sie herausfinden, wie Ihre Ausgabe aussehen soll. Sollen die Daten in ein Data Warehouse, einen Data Lake oder etwas anderes (z. B. ein Seehaus) fließen?

Das Data Warehouse ist ein Repository mit strukturierten Daten, das für Analysen und Berichte verwendet wird. Ein Data Lake ist ein Speicher für unstrukturierte und halbstrukturierte Daten, der für Data Mining, maschinelles Lernen und andere Arten von analytischen Aufgaben verwendet wird.

Je nach Anwendungsfall wird in der Regel ein Warehouse oder ein See als Ausgabe für die Datenpipeline verwendet, aber nicht immer.

Entwurf der Systemarchitektur

Hier müssen Sie alle Teile miteinander verbinden. Sobald Sie wissen, wie die Daten verwendet werden sollen und wohin sie gehen müssen, können Sie entscheiden, wie Sie die Pipeline am besten aufbauen. Welche Dienste und Anwendungen sind erforderlich, damit die Daten verarbeitet und genutzt werden können? Dieser Schritt ist entscheidend für den Aufbau einer Datenpipeline und erfordert eine sorgfältige Planung.

Die Architektur sollte die Datenquellen, den Verarbeitungsplan, den Output und alle unerwarteten Szenarien berücksichtigen, z. B. unvorhergesehene Spitzen bei der Datenlast oder dem Datenverkehr.

Ihre Pipeline-Architektur wird wahrscheinlich Folgendes umfassen:

  • Datenintegrationstools zur Verbindung mehrerer Datenquellen und zur Übertragung von Daten von einem System in ein anderes (z. B. API-Gateways, ETL-Tools oder Messaging-Tools).
  • Datenverarbeitungstools zur Unterstützung der Verarbeitung und Bereinigung von Daten für die Analyse (z. B. Datenbereinigungs-, Validierungs- oder Wrangling-Tools)
  • Datenanalysetools zur Analyse von Daten und zur Gewinnung aussagekräftiger Erkenntnisse (z. B. prädiktive Analysen, maschinelles Lernen oder Visualisierungstools, die den Sinn der Informationen verdeutlichen)
  • Datenspeicher-Tools zum Speichern, Verwalten und Schützen von Daten (z. B. Data Lakes, Data Warehouses oder Close Storage)

Data Governance einführen

Data Governance ist ein wesentlicher Bestandteil jeder Pipeline. Sie ist der Plan, wie Sie Ihre Datenpipeline verwalten und pflegen werden. Wer wird Zugriff auf die Daten haben? Wie werden die Daten gesichert? Welche Richtlinien werden eingeführt, um den Datenschutz zu gewährleisten?

Der Governance-Bedarf eines jeden Unternehmens hängt von einer Reihe von Faktoren ab, wie z. B. den regionalen Vorschriften für die Datenerfassung und -nutzung sowie den Unternehmenszielen. In der Regel können Unternehmen jedoch davon ausgehen, dass sie Folgendes einrichten müssen:

  • Zugriffskontrollrichtlinien, die festlegen, wer auf die Daten zugreifen darf und wer nicht und zu welchem Zweck
  • Richtlinien zur Datenverschlüsselung, um Daten bei der Übertragung und im Ruhezustand zu schützen
  • Datenaufbewahrungsrichtlinien, die festlegen, wie lange Daten gespeichert werden und wann sie gelöscht werden
  • Datenschutzrichtlinien, die festlegen, wie Daten verwendet und weitergegeben werden
  • Datensicherheitsrichtlinien, die die Maßnahmen zum Schutz der Daten vor unberechtigtem Zugriff festlegen
  • Prüfungsrichtlinien, die festlegen, wie Daten überwacht und nachverfolgt werden

Wählen Sie eine Integrationsplattform

Sobald die Architektur und die Governance festgelegt sind, kann die Datenpipeline konfiguriert und getestet werden. Nach Abschluss der Tests kann die Datenpipeline freigegeben und auf etwaige Probleme überwacht werden. Wenn Sie jedoch eine Pipeline schneller und mit weniger Aufwand implementieren möchten, sollten Sie eine Integrationsplattform für die eigentliche Erstellung Ihrer Pipeline in Betracht ziehen.

Integrationsplattformen wie iPaaS von SnapLogic steuern den Prozess und dienen als Vermittler für jede Stufe der Datenpipeline. Eine Datenpipeline kann schnell und effizient eingerichtet werden, da keine manuelle Kodierung erforderlich ist. SnapLogic verwendet eine Drag-and-Drop-Oberfläche, so dass jeder loslegen kann, unabhängig von seinen Programmierkenntnissen oder seiner Erfahrung bei der Einrichtung von Pipelines. Die Integrationsplattform bietet außerdem Echtzeiteinblicke in den Einrichtungsprozess der Datenpipeline, sodass Teams Probleme schnell erkennen und beheben können.

Erfahren Sie mehr darüber, was iPaaS für Ihre Datenpipeline tun kann.

SnapLogic ist der Marktführer im Bereich der generativen Integration.
Kategorie: Datenintegration
Wie man eine Datenpipeline aufbaut Blog

Wir stellen ein!

Entdecken Sie Ihre nächste große Karrierechance.