SnapLogic reist nach San Francisco zum Spark Summit 2016

Das Big Data-Team beim Spark-Gipfel in San Francisco
Das SnapLogic Big Data Team auf dem Spark Summit in San Francisco

Das Big Data-Team von SnapLogic war letzte Woche auf dem Spark Summit in San Francisco. Rund 2.500 Menschen nahmen in diesem Jahr an der Veranstaltung teil, bei der mehrere hochkarätige Redner wie Matei Zaharia, der Erfinder von Spark, Jeff Dean von Google, Andrew Ng von Baidu und Vertreter von einflussreichen Tech-Unternehmen wie Amazon, Microsoft und Intel auftraten.

Das Hauptthema der Veranstaltung war die Version 2.0 von Spark, die den Trend zum Aufbau einer einheitlichen Engine, zur Verbesserung der High-Level-APIs und zur umfassenden Integration mit Datenanalyse- und Machine-Learning-Bibliotheken fortsetzt. In Spark 2.0 vereinheitlicht die Structured-Streaming-Engine die Batch- und Stream-Verarbeitung. Darüber hinaus unterstützt die Engine die gleiche Spark-SQL-API, die in früheren Versionen von Spark eingeführt wurde, und unterstützt weiterhin die dafür entwickelten Abfrageoptimierungen. Insgesamt sollte Spark 2.0 die Entwicklungskosten senken und die Leistung verbessern, während die Abwärtskompatibilität erhalten bleibt.

Ein wichtiger Punkt der Konferenz war die Veröffentlichung einer "Community Edition", die es den Menschen ermöglicht, Spark kostenlos zu erlernen und mit der Erstellung von Anwendungen zu beginnen. Es gab viele gute Demonstrationen dazu, darunter eine von Databricks. Es scheint ein großartiger Ort zu sein, um mit Spark zu beginnen, da es einen Großteil der betrieblichen Komplexität beseitigt und viele Lernressourcen eingebaut hat.
Eine der aufregenderen Botschaften der Konferenzen ist, dass mehrere traditionell "harte" Probleme der künstlichen Intelligenz (KI) wie Spracherkennung, Bildverarbeitung und unstrukturiertes Problemlösen in letzter Zeit mehrere wichtige Durchbrüche erzielt haben. Andrew Ng von Baidu beschrieb die KI-Herausforderung als vergleichbar mit der Raumfahrt: Der Bau einer Rakete erfordert das richtige Gleichgewicht zwischen Motor und Treibstoff, genauso wie der Erfolg in der KI das richtige Gleichgewicht zwischen hochentwickelten Machine-Learning-Modellen und großen Datenmengen erfordert. Der Spark Summit war ziemlich optimistisch, dass diese Fortschritte eine "Intelligenzrevolution" einleiten werden, die so einschneidend sein wird wie die industrielle Revolution im 20.
Ein paar weitere Beobachtungen von der Veranstaltung:
  • In allen Vorträgen des Anwendungsfall-Tracks, an dem ich teilnahm (Uber, Netflix, Airbnb), wurde irgendeine Form von ETL eingesetzt, aber kein Tool schien bevorzugt zu werden. Die Dateneingabe und -aufbereitung scheint immer noch ein großer Schmerzpunkt für Dateningenieure zu sein.
  • Alle sprechen von "Datenpipelines", was sehr gut zur Terminologie von SnapLogic passt.
  • Parquet ist das bevorzugte Format für die Speicherung großer Datenmengen.
  • MapReduce wird inzwischen als veraltet angesehen, selbst Doug Cutting stimmte dem zu, aber die Unternehmen haben in diese Infrastruktur und Ausbildung investiert, so dass es auch weiterhin Bestand haben wird. Eine Hürde bei der Einführung von Spark bei Netflix war (laut Kurt Brown), Entwickler mit Spark-Erfahrung zu finden. Dies ist für die Spark-Datenpipelines von SnapLogic und den Hadooplex von Bedeutung, da es den Leuten ermöglicht, Spark ohne Erfahrung mit den APIs zu verwenden und einige der Yarn-Erfahrungen, die die Leute durch MapReduce gemacht haben, wieder zu verwenden.
Spark-Gipfel 2016
Mitglieder des SnapLogic Big Data-Teams beim Spark Summit 2016
Insgesamt war es eine großartige Veranstaltung, um zu verstehen, wohin sich Spark bewegt und wie die Leute es nutzen. Es war auch ein gutes Forum, um einige der Big Data-Integrationsschwerpunkte von SnapLogic zu besprechen: Investitionen in Parquet, Spark, IoT und Streaming, die alle mit der Community übereinzustimmen scheinen. Wir freuen uns darauf, diese Erfahrungen in unsere Arbeit bei SnapLogic einfließen zu lassen.
Wenn Sie mehr darüber erfahren möchten, wie SnapLogic mit Spark oder Big Data zusammenarbeitet, besuchen Sie unsere Videoseite, um ansprechende Webinare und SnapLogic-Demonstrationen anzusehen. Wir suchen auch nach Senior Big Data-Entwicklern, also schließen Sie sich unserem Big Data-Team an!
Kategorie: Nachrichten

Wir stellen ein!

Entdecken Sie Ihre nächste große Karrierechance.