Big Data-Verarbeitung jetzt noch einfacher mit SnapLogic eXtreme

Da Unternehmen ihre digitale Transformation fortsetzen und die Vorteile von Big-Data-Architekturen kennenlernen, wollen sie ihre Data Lakes in die Cloud migrieren, um Kosten zu sparen und Vorteile bei der Datenverarbeitung und Skalierung zu erzielen. Die Verbindung von Cloud-basierten Datenumgebungen und die Erstellung von Apache Spark-Pipelines erfordert jedoch umfangreiche technische Kenntnisse und Ressourcen.

Mit SnapLogic eXtreme, unserer neuen Big-Data-Lösung, macht SnapLogic die Cloud-basierte Big-Data-Verarbeitung zum ersten Mal für Unternehmen realisierbar, indem es Flexibilität, Skalierbarkeit und geringere Betriebskosten bietet, ganz zu schweigen davon, dass für die Verwaltung von Big-Data-Clustern weniger Fachkenntnisse erforderlich sind. SnapLogic ermöglicht es Unternehmen außerdem, einen ROI für Big Data-Investitionen zu erzielen, indem sie wirklich datengesteuert werden.

Verarbeitung großer Datenmengen: Eine kurze Geschichte

Die Gewinnung von Geschäftserkenntnissen mithilfe der Big Data-Verarbeitung war bisher nur bedingt erfolgreich, da viele Unternehmen keine überzeugende Kapitalrendite vorweisen konnten. In den Anfängen verarbeiteten Unternehmen große Datenmengen durch den Aufbau eines Hadoop-Clusters vor Ort mit einer Distribution wie Cloudera, Hortonworks oder MapR. Die analysierten Daten waren meist strukturiert und erforderten einen hohen Investitionsaufwand für die Anschaffung der notwendigen Hardware. Außerdem ist Hadoop ein komplexes Gebilde, das zu verwalten und zu überwachen ist und spezielle Fähigkeiten erfordert, die nur in wenigen Unternehmen vorhanden sind.

Da die Unternehmen immer mehr geschäftlichen Nutzen aus Big Data ziehen, erstellen oder migrieren sie ihre Big-Data-Architektur in die Cloud, um von den enormen Betriebskosteneinsparungen, der nahezu unbegrenzten Datenverarbeitungsleistung und den sofortigen Skalierungsoptionen der Cloud zu profitieren.

Viele Unternehmen machen dieses "Lift and Shift"-Verfahren durch, bei dem sie den lokalen Cluster in die Cloud verlagern. Dies hat den Vorteil, dass keine großen Investitionskosten anfallen, um den Cluster aufzusetzen und in Betrieb zu nehmen. Da der Cluster jedoch weiterhin vom Unternehmen verwaltet und überwacht wird, trägt diese Strategie nicht dazu bei, das Problem der Betriebskosten und der fehlenden Qualifikationen zu lösen. Daher warten die Unternehmen immer noch auf die versprochenen Vorteile (geringere Betriebskosten, schnellerer TTV und ROI).

Für die meisten Unternehmen ist die Verwaltung und Überwachung von Hadoop-Umgebungen kein Wettbewerbsvorteil, so dass sie nach einer besseren Möglichkeit suchen, die Datenumwandlung in großem Maßstab durchzuführen. BDaaS bietet eine solche Datenumwandlungsumgebung. Da es sich um einen verwalteten Dienst handelt, kann der Zeitaufwand für die Verwaltung und Überwachung des Clusters drastisch reduziert werden, so dass sich die Unternehmen auf ihre wichtigsten Wettbewerbsvorteile konzentrieren können. Die Verbindung von Cloud-basierten Big-Data-Umgebungen mit verschiedenen Datenquellen und die Erstellung von Apache Spark-Pipelines zur Datenumwandlung erfordern jedoch ein hohes Maß an technischem Wissen und kontinuierliche Kodierungsressourcen von Dateningenieuren und IT-Kerngruppen, was zu prohibitiven Betriebskosten und einer längeren Time-to-Value führt.

Einstieg in SnapLogic eXtreme

Mit SnapLogic eXtreme macht SnapLogic Cloud-basierte Big-Data-Lösungen für Unternehmen zum ersten Mal realisierbar, indem es Flexibilität, Skalierbarkeit und geringere Betriebskosten bietet. Dateningenieure können SnapLogic eXtreme nutzen, um die hohen Kosten und Ressourcenanforderungen zu senken, mit denen viele Unternehmen beim Aufbau und Betrieb von Big-Data-Architekturen in der Cloud konfrontiert sind. So können sich Dateningenieure, Business Analysten und andere darauf konzentrieren, zeitnahe Erkenntnisse aus den Big Data zu gewinnen, die Entscheidungsfindung zu verbessern und die Time-to-Market zu verkürzen.

Ein Beispiel für Customer 360

Alle Unternehmen wollen ihre Kunden besser verstehen und haben in der Regel eine Initiative, die ihnen hilft, eine 360-Grad-Sicht auf ihre Kunden zu erhalten. Um eine möglichst umfassende Sicht auf den Kunden zu erhalten, besteht jedoch eine der Herausforderungen darin, dass die Kundendaten in Silos gespeichert sind. Um einen vollständigen Überblick über einen Kunden zu erhalten, müssen die Kundendaten aus verschiedenen Quellen kombiniert und angereichert werden. Zunächst müssen Kundendaten aus einem Cloud-basierten CRM-System wie Salesforce, Clickstream-Protokolle von der Website, Customer-Care-Protokolle von der Kundendienstanwendung und Social-Media-Feeds wie Twitter aufgenommen werden. Diese Datenquellen enthalten sowohl strukturierte als auch semistrukturierte Daten.

Über die grafische Benutzeroberfläche von SnapLogic können Dateningenieure mehr als 450 vorgefertigte intelligente Konnektoren oder Snaps nutzen, um mit nur wenigen Klicks Datenpipelines zu erstellen und strukturierte Daten aus On-Premises-Systemen wie relationalen Datenbanken und Cloud-basierten Anwendungen (Salesforce) sowie halbstrukturierte Daten wie Twitter Social Media und Clickstream-Daten von ihrer Website zu erfassen. Alle diese Daten werden in ihrem Rohformat erfasst und landen in ihren Cloud-basierten Data Lake-Speicherdiensten wie Amazon S3 oder Azure Data Lake Store.

Über dieselbe grafische Benutzeroberfläche können Ingenieure dann schnell transformative Apache Spark-Pipelines mit den ephemeren Plex-Funktionen von SnapLogic erstellen, um die großen Datenmengen aus diesen Quellen einfacher zu verarbeiten. Die erste Spark-Pipeline, die ausgeführt wird, bewirkt, dass der ephemere Amazon EMR-Cluster gestartet wird. Der Cluster, der hochgefahren wird, basiert auf der in der Benutzeroberfläche angegebenen Konfiguration. Nachfolgende Pipeline-Ausführungen verwenden den vorhandenen Cluster wieder. Sobald die gesamte Verarbeitung abgeschlossen ist und der Cluster für eine gewisse Zeit inaktiv ist, wird der Cluster beendet, wodurch wertvolle Betriebskosten eingespart werden. Sobald die Transformationen abgeschlossen sind, werden die Daten in den Data Lake zurückgeschrieben, in der Regel in einem spaltenförmigen Format wie Parquet.

Schließlich werden die Daten aus dem Cloud-basierten Data Lake an Endsysteme geliefert, die Cloud Data Warehouses wie Snowflake oder BI-Tools wie Tableau umfassen können.

Eine einheitliche Plattform

SnapLogic eXtreme ist Teil der führenden Self-Service-Integrationsplattform von SnapLogic, der Enterprise Integration Cloud (EIC), und kann über seine visuelle Programmierschnittstelle zum Erstellen und Übermitteln leistungsstarker Spark-Transformationen verwendet werden. Die leistungsstarke Kombination aus EIC und SnapLogic eXtreme reduziert den Zeit- und Kostenaufwand sowie die Komplexität von Cloud Big Data-Integrationen. Mit einer vollständig verwalteten Datenarchitektur in der Cloud profitieren die Kunden von keinen Investitionskosten, geringeren Betriebskosten und keinen Qualifikationslücken. Komplexe Big-Data-Integrationen, die früher Wochen oder Monate dauerten, können jetzt in wenigen Tagen erledigt werden. Was gibt es daran nicht zu mögen?

Mark Gibbs

Vizepräsident des Produktmanagements bei SnapLogic

Kategorie: Daten

Themen: Big Data Datenintegration

Big Data-Verarbeitung jetzt einfacher mit SnapLogic eXtreme

Verwandte Blogs

SnapLogic ♥ OpenLineage: Eine ideale Ergänzung für die Datenintegration

Vereinfachte SAP-Datenextraktion für Snowflake: Überwindung von Komplexität und Kosten mit SnapLogic

Datenebene vs. Steuerungsebene: Was ist der Unterschied?