SnapLogic si reca a San Francisco per lo Spark Summit 2016

Il team Big Data allo Spark Summit di San Francisco
Il team SnapLogic Big Data allo Spark Summit di San Francisco

Il team Big Data di SnapLogic ha partecipato allo Spark Summit la scorsa settimana a San Francisco. Quest'anno hanno partecipato circa 2.500 persone e sono intervenuti diversi relatori di alto profilo, come Matei Zaharia, il creatore di Spark, Jeff Dean di Google, Andrew Ng di Baidu e rappresentanti di aziende tecnologiche influenti come Amazon, Microsoft e Intel.

L'evento più importante riguardava la versione 2.0 di Spark, che continua la tendenza a costruire un motore unificato, a migliorare le API di alto livello e a integrarsi ampiamente con le librerie di analisi dei dati e di apprendimento automatico. In Spark 2.0, il motore Structured Streaming unifica l'elaborazione batch e quella in streaming. Inoltre, il motore supporta la stessa API Spark SQL introdotta nelle versioni precedenti di Spark e supporta ancora le ottimizzazioni delle query sviluppate per essa. Nel complesso, Spark 2.0 dovrebbe ridurre i costi di sviluppo e migliorare le prestazioni, mantenendo la compatibilità con le versioni precedenti.

Una grande spinta della conferenza è stata il rilascio di una "community edition" che rende gratuito l'apprendimento e la creazione di applicazioni con Spark. Ci sono state molte buone dimostrazioni, tra cui quella di Databricks. Sembra un ottimo punto di partenza per iniziare a utilizzare Spark, in quanto elimina gran parte della complessità operativa e offre molte risorse di apprendimento.
Uno dei messaggi più interessanti delle conferenze è che diversi problemi tradizionalmente "difficili" di intelligenza artificiale (IA), come il riconoscimento vocale, l'elaborazione delle immagini e la risoluzione di problemi non strutturati, sono stati recentemente oggetto di importanti scoperte. Andrew Ng di Baidu ha descritto la sfida dell'IA come simile al volo spaziale: la costruzione di un razzo richiede il giusto equilibrio tra motore e carburante, così come il successo nell'IA richiede il giusto equilibrio tra sofisticati modelli di apprendimento automatico e ampie quantità di dati. Lo Spark Summit è stato piuttosto ottimista nel ritenere che questi progressi daranno il via a una "rivoluzione dell'intelligenza" che avrà lo stesso impatto della rivoluzione industriale del XX secolo.
Altre osservazioni sull'evento:
  • Tutti i relatori del corso sui casi d'uso a cui ho partecipato (Uber, Netflix, Airbnb) hanno utilizzato una qualche forma di ETL, ma nessuno strumento sembrava essere preferito. L'ingestione e la preparazione dei dati sembrano ancora un punto dolente per gli ingegneri dei dati.
  • Tutti parlano di "pipeline di dati", che si adatta perfettamente alla terminologia di SnapLogic.
  • Parquet è il formato preferito per l'archiviazione dei big data.
  • MapReduce è ormai considerato antiquato, anche Doug Cutting era d'accordo, ma le aziende hanno investito in quell'infrastruttura e in quella formazione, quindi resterà in circolazione. Un ostacolo all'adozione di Spark in Netflix (secondo Kurt Brown) è stato trovare sviluppatori con esperienza in Spark. Questo è significativo per le pipeline di dati Spark di SnapLogic e per Hadooplex, in quanto consente alle persone di iniziare a utilizzare Spark senza avere esperienza con le API e di riutilizzare parte dell'esperienza Yarn a cui le persone sono state esposte attraverso MapReduce.
Vertice Spark 2016
Membri del team SnapLogic Big Data allo Spark Summit 2016
Nel complesso, si è trattato di un grande evento per capire in che direzione si sta muovendo Spark e come le persone lo stanno utilizzando. È stata anche una buona cassa di risonanza per alcuni degli obiettivi di integrazione dei big data di SnapLogic: investire in Parquet, Spark, IoT e streaming, che sembrano essere tutti in linea con la comunità. Non vediamo l'ora di adottare questa esperienza nel lavoro che stiamo svolgendo in SnapLogic".
Se siete interessati a saperne di più su come SnapLogic funziona con Spark o con i Big Data, visitate la nostra pagina dei video per vedere i coinvolgenti webinar e le dimostrazioni di SnapLogic. Siamo anche alla ricerca di sviluppatori senior di Big Data, quindi unitevi al nostro team Big Data!
Categoria: Notizie
Argomenti: Conferenza sui Big Data

Stiamo assumendo!

Scoprite la vostra prossima grande opportunità di carriera.