Home ❯ Blog ❯ Quattro sessioni da seguire alla Conferenza Strata Data di New York

Quattro sessioni da seguire alla Strata Data Conference di New York

Da Michaela Lassig

Pubblicato il 27 agosto 2018

7 minuti di lettura

La Strata Data Conference di New York è il luogo in cui migliaia di aziende all'avanguardia approfondiscono le tecnologie e le tecniche emergenti dei big data. Da temi caldi come l'intelligenza artificiale e l'apprendimento automatico all'implementazione della strategia dei dati, questa serie di conferenze che dura da sette anni è una fucina di nuove idee e strategie per affrontare le sfide emerse nel campo dei dati.

SnapLogic, leader di Gartner nell'integrazione di applicazioni e dati di livello aziendale, fornisce un ambiente runtime serverless, basato su cloud, per routine di trasformazione dei dati complesse e ad alto volume per vari casi d'uso dei big data. Siamo uno sponsor della conferenza Strata e saremo presenti nella sala espositiva allo stand #1415. Visitate il nostro stand per ottenere una demo o per iscrivervi a una prova gratuita e riceverete una carta regalo di 10 dollari. Potrete inoltre partecipare alla vincita di un set Sonos playbar + Sonos one .

Se siete architetti dell'integrazione che partecipano a questa conferenza, vi consigliamo quattro sessioni:

1. Costruire un'applicazione di apprendimento automatico su larga scala con Amazon SageMaker e Spark

David Arpin (Servizi Web di Amazon)
9:00-12:30 martedì 11/09/2018
Sede: 1A 12/14 Livello: Intermedio

La popolarità dell'apprendimento automatico è cresciuta enormemente negli ultimi anni e la spinta a integrarlo in ogni soluzione non è mai stata così pronunciata. Il percorso dall'indagine allo sviluppo del modello fino all'implementazione in produzione può essere difficile. Ma la nuova piattaforma di machine learning di Amazon SageMaker AWS cerca di rendere questo processo più semplice.

L'apprendimento automatico inizia con i dati e Spark è una delle soluzioni più popolari e flessibili per gestire grandi insiemi di dati per l'ETL, l'analisi ad hoc e l'apprendimento automatico avanzato. Tuttavia, l'uso di Spark per i casi di produzione di machine learning può creare problemi di incoerenza nella scala degli algoritmi, conflitti sulle risorse dei cluster e latenze di previsione. Scaricando l'addestramento sugli algoritmi altamente scalabili, sull'ambiente di addestramento distribuito e gestito di Amazon SageMaker e distribuendolo con gli endpoint di produzione in tempo reale di SageMaker, l'implementazione dell'apprendimento automatico in produzione è più semplice e affidabile.

Questo tutorial spiega come costruire un'applicazione di apprendimento automatico, dalla manipolazione dei dati all'addestramento dell'algoritmo fino al deployment su un endpoint di predizione in tempo reale, utilizzando Spark e Amazon SageMaker.

2. Esecuzione di carichi di lavoro multidisciplinari su big data nella cloud

Sudhanshu Arora (Cloudera), Tony Wu (Cloudera), Stefan Salandy (Cloudera), Suraj Acharya (Cloudera), Brandon Freeman (Cloudera, Inc.)
13:30-17:00 martedì 11/09/2018
Sede: 1E 14 Livello: Intermedio

Le organizzazioni gestiscono oggi carichi di lavoro di big data diversificati e multidisciplinari che abbracciano applicazioni di data engineering, database analitici e data science. Molti di questi carichi di lavoro operano sugli stessi dati sottostanti e i carichi di lavoro stessi possono essere transitori o di lunga durata. Una delle sfide consiste nel mantenere il contesto dei dati coerente tra questi diversi carichi di lavoro.

In questa esercitazione, utilizzeremo l'offerta Cloudera Altus PaaS, alimentata da Cloudera Altus SDX, per eseguire diversi carichi di lavoro sui big data. In questa esercitazione impareremo a gestire con successo l'esperienza dei dati condivisi per garantire un'esperienza coerente tra tutti i vari carichi di lavoro con quanto segue:

- Imparate a gestire con successo una pipeline di analisi dei dati in cloud e a integrare i flussi di lavoro di data engineering e data analytic.

- Comprendere le considerazioni e le best practice per le pipeline di analisi dei dati nel settore della ricerca. cloud

- Esplorare la condivisione dei metadati tra i carichi di lavoro in un Big Data PaaS

3. Elaborazione di flussi con Kafka e KSQL

Tim Berglund (Confluent)
9:00-12:30 martedì 11/09/2018
Sede: 1E 14 Livello: Intermedio

Apache Kafka è una piattaforma standard di fatto per l'elaborazione dei dati in streaming, essendo ampiamente diffusa come sistema di messaggistica e disponendo di un robusto framework per l'integrazione dei dati (Kafka Connect) e di un'API per l'elaborazione dei flussi (Kafka Streams) per soddisfare le esigenze comuni dell'elaborazione dei messaggi in tempo reale. Ma c'è di più!

Kafka offre ora KSQL, un linguaggio dichiarativo di elaborazione dei flussi simile a SQL che consente di definire facilmente potenti applicazioni di elaborazione dei flussi. Ciò che una volta richiedeva un codice Java moderatamente sofisticato, ora può essere fatto alla riga di comando con una sintassi familiare e facilmente accessibile. Partecipate a questa conferenza per avere una panoramica di KSQL con una codifica dal vivo su dati in streaming.

4. Progettazione di una piattaforma di dati di nuova generazione

Ted Malaska (Blizzard Entertainment), Jonathan Seidman (Cloudera)
13:30-17:00 martedì 11/09/2018
Sede: 1A 06/07 Livello: Avanzato

I rapidi progressi stanno causando una drastica evoluzione delle capacità di archiviazione e di elaborazione nell'ecosistema del software open source per i dati aziendali. Questi progressi includono progetti come:

Apache Kudu, un moderno data store colonnare che integra HDFS e Apache HBase offrendo efficienti capacità analitiche e inserti e aggiornamenti veloci con Hadoop;
Apache Kafka, che fornisce un trasporto distribuito di messaggi ad alta velocità e ad alta affidabilità;
Apache Spark, che sta rapidamente sostituendo framework di elaborazione parallela come MapReduce grazie al suo design efficiente e all'uso ottimizzato della memoria. I componenti di Spark, come Spark Streaming e Spark SQL, forniscono una potente elaborazione quasi in tempo reale;
Sistemi di archiviazione distribuiti, come HDFS e Cassandra;
Motori di interrogazione parallela come Apache Impala e CockroachDB, che forniscono funzionalità per l'analisi altamente parallela e concorrente di insiemi di dati.

Questi sistemi di archiviazione ed elaborazione forniscono una potente piattaforma per implementare applicazioni di elaborazione dei dati in batch e in streaming. Se da un lato questi progressi sono entusiasmanti, dall'altro aggiungono una nuova serie di strumenti che architetti e sviluppatori devono comprendere quando progettano moderne soluzioni di elaborazione dati.

Utilizzando Customer 360 e l'Internet degli oggetti come esempi, Jonathan Seidman e Ted Malaska spiegano come progettare una moderna piattaforma di big data in tempo reale sfruttando questi componenti per integrare in modo affidabile più fonti di dati, eseguire elaborazioni di dati in tempo reale e in batch, archiviare in modo affidabile enormi volumi di dati e interrogare ed elaborare in modo efficiente grandi insiemi di dati. Nel corso della trattazione vengono illustrate le considerazioni e le best practice per l'utilizzo di questi componenti per l'implementazione di soluzioni, vengono descritte le sfide più comuni e come affrontarle, e vengono forniti consigli pratici per la realizzazione di architetture di dati moderne e in tempo reale.

Gli argomenti includono:

Accelerare le attività di elaborazione dei dati, come l'ETL e l'analisi dei dati, costruendo pipeline di dati quasi in tempo reale utilizzando moderni componenti open source di integrazione ed elaborazione dei dati.
Costruire pipeline di dati affidabili ed efficienti, a partire dai dati di partenza fino ai set di dati completamente elaborati.
Fornire agli utenti analisi veloci sui dati utilizzando moderni motori di archiviazione e di interrogazione.
Sfruttare queste capacità insieme ad altri strumenti per fornire agli utenti sofisticate capacità di apprendimento automatico e di analisi.

Non dimenticate di visitare lo stand #1415 per ottenere una demo di SnapLogic Enterprise Integration Cloud o eXtreme o per iscrivervi a una prova gratuita (e ricevere una carta regalo da 10 dollari!) Potrete anche partecipare alla vincita di un set Sonos playbar + Sonos one ! Ci vediamo lì!