Big Data Ingestion - Definition und Überblick

Was ist Big Data Ingestion?

Big Data Ingestion sammelt Daten und bringt sie in ein Datenverarbeitungssystem, wo sie gespeichert, analysiert und abgerufen werden können. Zu den Datenverarbeitungssystemen können Data Lakes, Datenbanken und Suchmaschinen gehören. In der Regel sind diese Daten unstrukturiert, stammen aus verschiedenen Quellen und liegen in unterschiedlichen Formaten vor. 

Je nach Quelle und Ziel der Daten können die Daten in Echtzeit, in Stapeln oder in beiden Formen (so genannte Lambda-Architektur) importiert werden. Daten, die in Echtzeit gestreamt werden, werden importiert, während sie von der Quelle emittiert werden. Daten, die in Stapeln aufgenommen werden, werden in bestimmten Gruppen in regelmäßigen Abständen importiert.

In vielen Situationen haben Quelle und Ziel nicht dasselbe Format, Protokoll oder Datentiming. Um die Daten für das Zielsystem nutzbar zu machen, müssen sie in irgendeiner Form umgewandelt oder konvertiert werden. 

Eine effektive Dateneingabe beginnt mit der Dateneingabeschicht. Diese Schicht verarbeitet die eingehenden Daten, priorisiert die Quellen, validiert einzelne Dateien und leitet die Daten an das richtige Ziel weiter. Sie endet mit der Datenvisualisierungsschicht, die die Daten für den Benutzer darstellt.

SnapLogic unterstützt Unternehmen bei der Verbesserung des Datenmanagements in ihren Data Lakes. Dazu gehört das Verschieben und Verarbeiten großer Datenmengen aus verschiedenen Quellen. SnapLogic eXtreme verwaltet Big-Data-Cluster und macht Cloud-basierte Big-Data-Verarbeitung durch Skalierbarkeit, Flexibilität und reduzierte Betriebskosten für Unternehmen realisierbar. 

Erfahren Sie mehr über Big Data-Ingestion-Pipeline-Muster und die Architektur von Datenpipelines.


Weitere Inhalte, die Sie interessieren könnten