SnapLogic und Google BigQuery - Bulk Loading für schnelle Google-Analysen

3 Minuten lesen

Da die Anbieter von öffentlichen Clouds um Ihre Big Data-Speicherung, -Verarbeitung und -Analyse konkurrieren, bietet jeder Anbieter verschiedene Dateneingabemethoden an, um den Massenladeprozess zu optimieren und Ihre Daten (und Ihr Geld) zu erfassen. Google ist da nicht anders und bietet eine Bulk-Loading-Option für Batch- und Streaming-Workloads für Google BigQuery.

SnapLogic unterstützt Google BigQuery zwar schon seit einiger Zeit, aber sowohl Streaming und Batch Bulk-Loading-Optionen wurden mit dem Herbst-Release 2017 (R4.11) eingeführt, um die SnapLogic-Pipelines zum Laden von Daten in Google BigQuery weiter zu optimieren. Diese neuen Funktionen helfen SnapLogic-Kunden, das Laden ihres Google BigQuery Data Warehouse zu optimieren, indem sie die mehr als 400 Snaps nutzen, um sich mit nahezu jeder Quelle zu verbinden und das Laden in Google BigQuery zu optimieren.

Anstatt einen Datensatz nach dem anderen in Google BigQuery einzufügen (zu schreiben), werden mit dem neuen SnapLogic Google BigQuery Bulk Load Daten, wie der Name schon sagt, in großen Mengen in Ihren Google BigQuery-Datensatz eingefügt. Unabhängig davon, ob Sie Datendateien als Batch-Prozess hochladen, der automatisch den Hochgeschwindigkeits-Google-Cloud-Speicher für die temporäre Bereitstellung von Dateien nutzt, oder ob Sie Daten streamen, ist der Einfügeprozess für Massenoperationen optimiert, was zu einem viel höheren Leistungsniveau und geringeren Ladezeiten führt.

Um Ihnen ein Gefühl für die Leistungssteigerung zu vermitteln, haben interne Tests gezeigt, dass beim Vergleich des Ladens von 100.000 Dokumenten mit dem Google BigQuery-Schreib-Snap im Vergleich zum Google BigQuery-Bulk-Load (Streaming)-Snap eine Verringerung der Ladezeit um mindestens 50 Prozent erzielt wurde (Ihre Ergebnisse variieren je nach Batch-Load-Einstellung, Anzahl der Spalten und Länge der Daten). Bei 1.000.000 Datensätzen ergab der gleiche Test eine Reduzierung der Ladezeit um mindestens 80 % (auch hier können Ihre Ergebnisse variieren).

Sobald Ihre Datendateien in den Hochgeschwindigkeits-Cloudspeicher von Google geladen sind (was automatisch vom Google BigQuery Bulk Load (Cloud Storage) Snap erledigt wird), ist das Laden in Google BigQuery extrem schnell. Ein interner Test zeigt, dass eine JSON-Datei mit 1,5 Millionen Datensätzen in etwas mehr als 90 Sekunden in Google BigQuery geladen wird (auch hier wird die Zeit je nach Ihren Daten stark variieren).

Nachdem wir nun über die Technologie gesprochen haben, sollten Sie die Geschäftsanwendungen zur Unterstützung von IOT, Customer 360, digitalem Marketing, Betriebsabläufen oder anderen großvolumigen Datenanalysen sowie die kürzere Time-to-Value bei der Umsetzung dieser Anwendungsfälle mit SnapLogic betrachten.

Sehen Sie sich die Google BigQuery Snaps unten in Aktion an.

Geben Sie unserem neuen Google BigQuery Bulk Upload Snaps und lassen Sie uns wissen, was Sie davon halten.

Ehemaliger Senior Director für Produktmanagement bei SnapLogic
Kategorie: Produkt

Wir stellen ein!

Entdecken Sie Ihre nächste große Karrierechance.