Accueil ❯ Blog ❯ Quatre sessions à assister à la conférence Strata Data à New York

Quatre sessions à suivre lors de la conférence Strata Data à New York

Par Michaela Lassig

Publié le 27 août 2018

7 minutes de lecture

La conférence Strata Data à New York est l'occasion pour des milliers d'entreprises de pointe de se plonger dans les technologies et techniques émergentes du big data. Qu'il s'agisse de sujets brûlants comme l'IA et l'apprentissage automatique ou de la mise en œuvre d'une stratégie en matière de données, cette série de conférences, qui existe depuis sept ans, est un foyer d'idées et de stratégies nouvelles pour relever les défis qui sont apparus dans le domaine des données.

SnapLogic, leader Gartner dans le domaine de l'intégration des applications et des données d'entreprise, fournit un environnement d'exécution sans serveur, basé sur cloud, pour des routines de transformation de données complexes et de grand volume servant divers cas d'utilisation des big data. Nous sommes un sponsor de la conférence Strata et serons dans le hall d'exposition au stand #1415. Visitez notre stand pour obtenir une démonstration ou pour vous inscrire à un essai gratuit et vous recevrez une carte-cadeau de 10 $. Vous serez également inscrit pour gagner un ensemble Sonos playbar + Sonos one .

Si vous êtes un architecte d'intégration et que vous assistez à cette conférence, voici quatre sessions que nous vous recommandons :

1. Construire une application d'apprentissage automatique à grande échelle en utilisant Amazon SageMaker et Spark

David Arpin (Amazon Web Services)
9:00am-12:30pm Mardi, 09/11/2018
Lieu : 1A 12/14 Niveau : Intermédiaire

La popularité de l'apprentissage automatique s'est considérablement accrue ces dernières années, et la volonté de l'intégrer dans toutes les solutions n'a jamais été aussi prononcée. Le chemin qui mène de l'investigation au développement de modèles et à la mise en œuvre en production peut s'avérer difficile. Mais Amazon SageMaker, la nouvelle solution d'apprentissage automatique d'AWS plateforme , vise à faciliter ce processus.

L'apprentissage automatique commence par des données, et Spark est l'une des solutions les plus populaires et les plus flexibles pour traiter de grands ensembles de données pour l'ETL, l'analyse ad hoc et l'apprentissage automatique avancé. Cependant, l'utilisation de Spark pour les cas d'utilisation de l'apprentissage automatique en production peut créer des problèmes avec des incohérences dans l'échelle des algorithmes, des conflits sur les ressources des clusters et des latences de prédiction. En transférant l'apprentissage vers les algorithmes hautement évolutifs d'Amazon SageMaker, l'environnement d'apprentissage distribué et géré, et en le déployant avec les points d'extrémité de production en temps réel de SageMaker, la mise en œuvre de l'apprentissage automatique en production est plus facile et plus fiable.

Ce tutoriel vous guidera dans la construction d'une application d'apprentissage automatique, de la manipulation des données à l'entraînement des algorithmes et au déploiement vers un point final de prédiction en temps réel, à l'aide de Spark et d'Amazon SageMaker.

2. Exécution de charges de travail multidisciplinaires dans le domaine des big data cloud

Sudhanshu Arora (Cloudera), Tony Wu (Cloudera), Stefan Salandy (Cloudera), Suraj Acharya (Cloudera), Brandon Freeman (Cloudera, Inc.)
13:30-17:00 Mardi, 09/11/2018
Lieu : 1E 14 Niveau : Intermédiaire

Les organisations exécutent aujourd'hui des charges de travail big data diverses et multidisciplinaires qui couvrent l'ingénierie des données, les bases de données analytiques et les applications de science des données. Nombre de ces charges de travail utilisent les mêmes données sous-jacentes et les charges de travail elles-mêmes peuvent être transitoires ou de longue durée. L'un des défis consiste à maintenir la cohérence du contexte des données entre ces différentes charges de travail.

Dans ce tutoriel, nous utiliserons l'offre Cloudera Altus PaaS, alimentée par Cloudera Altus SDX, pour exécuter diverses charges de travail Big Data. Dans ce tutoriel, nous apprendrons à gérer avec succès l'expérience des données partagées afin d'assurer une expérience cohérente dans toutes les charges de travail avec les éléments suivants :

- Apprenez à gérer avec succès un pipeline d'analyse de données sur le site cloud et à intégrer l'ingénierie et l'analyse de données. les workflows

- Comprendre les considérations et les meilleures pratiques pour les pipelines d'analyse de données dans l'entreprise. cloud

- Explorer le partage des métadonnées entre les charges de travail dans un PaaS Big Data

3. Traitement des flux avec Kafka et KSQL

Tim Berglund (Confluent)
9:00am-12:30pm Mardi, 09/11/2018
Lieu : 1E 14 Niveau : Intermédiaire

Apache Kafka est un standard de facto pour le traitement des données en continu plateforme, largement déployé en tant que système de messagerie et disposant d'un cadre d'intégration de données robuste (Kafka Connect) et d'une API de traitement des flux (Kafka Streams) pour répondre aux besoins courants en matière de traitement des messages en temps réel. Mais ce n'est pas tout !

Kafka propose désormais KSQL, un langage déclaratif de traitement de flux de type SQL qui vous permet de définir facilement de puissantes applications de traitement de flux. Ce qui nécessitait auparavant un code Java modérément sophistiqué peut désormais être réalisé en ligne de commande avec une syntaxe familière et éminemment accessible. Venez assister à cette conférence pour un aperçu de KSQL avec un codage en direct sur des données de flux en direct.

4. L'architecture d'un système de données de nouvelle génération plateforme

Ted Malaska (Blizzard Entertainment), Jonathan Seidman (Cloudera)
13:30-17:00 Mardi, 09/11/2018
Lieu : 1A 06/07 Niveau : Avancé

Des progrès rapides entraînent une évolution spectaculaire des capacités de stockage et de traitement dans l'écosystème des logiciels de données d'entreprise à code source ouvert. Ces progrès incluent des projets tels que :

Apache Kudu, un magasin de données moderne en colonnes qui complète HDFS et Apache HBase en offrant des capacités analytiques efficaces et des insertions et mises à jour rapides avec Hadoop ;
Apache Kafka, qui fournit un transport de messages distribués à haut débit et très fiable ;
Apache Spark, qui remplace rapidement les cadres de traitement parallèle tels que MapReduce en raison de sa conception efficace et de son utilisation optimisée de la mémoire. Les composants Spark, tels que Spark Streaming et Spark SQL, permettent un traitement puissant en temps quasi réel ;
Systèmes de stockage distribués, tels que HDFS et Cassandra ;
Les moteurs d'interrogation parallèles tels qu'Apache Impala et CockroachDB, qui permettent une analyse hautement parallèle et simultanée des ensembles de données.

Ces systèmes de stockage et de traitement fournissent un puissant plateforme pour mettre en œuvre des applications de traitement de données sur des données en lots et en flux. Si ces avancées sont passionnantes, elles ajoutent également une nouvelle gamme d'outils que les architectes et les développeurs doivent comprendre lorsqu'ils conçoivent des solutions modernes de traitement des données.

En s'appuyant sur les exemples de Customer 360 et de l'Internet des objets, Jonathan Seidman et Ted Malaska expliquent comment architecturer un big data moderne et en temps réel plateforme en s'appuyant sur ces composants pour intégrer de manière fiable de multiples sources de données, effectuer des traitements de données en temps réel et par lots, stocker de manière fiable des volumes massifs de données et interroger et traiter efficacement de grands ensembles de données. En cours de route, ils discutent des considérations et des meilleures pratiques pour l'utilisation de ces composants afin de mettre en œuvre des solutions, couvrent les défis courants et la façon de les relever, et fournissent des conseils pratiques pour construire vos propres architectures de données modernes et en temps réel.

Les thèmes abordés sont les suivants

Accélérer les tâches de traitement des données telles que l'ETL et l'analyse des données en construisant des pipelines de données en temps quasi réel à l'aide de composants modernes d'intégration et de traitement des données open source.
Construire des pipelines de données fiables et efficaces, en commençant par les données sources et en terminant par des ensembles de données entièrement traités.
Fournir aux utilisateurs des analyses rapides sur les données à l'aide de moteurs de stockage et d'interrogation modernes
Exploiter ces capacités avec d'autres outils pour fournir aux utilisateurs des capacités sophistiquées d'apprentissage automatique et d'analyse.

N'oubliez pas de visiter le stand #1415 pour obtenir une démonstration de SnapLogic Enterprise Integration Cloud ou eXtreme ou pour vous inscrire à un essai gratuit (et obtenir une carte cadeau de 10 $ !) Vous serez également inscrit pour gagner un ensemble Sonos playbar + Sonos one ! Au plaisir de vous y voir !

Michaela Lassig

Ancien responsable des campagnes de marketing chez SnapLogic

Catégorie : SnapLogic

Thèmes : Conférence Données Événements

Quatre sessions à suivre lors de la conférence Strata Data à New York

1. Construire une application d'apprentissage automatique à grande échelle en utilisant Amazon SageMaker et Spark

2. Exécution de charges de travail multidisciplinaires dans le domaine des big data cloud

3. Traitement des flux avec Kafka et KSQL

4. L'architecture d'un système de données de nouvelle génération plateforme

Blogs associés

Entrepôts de données, lacs de données et entrepôts de données : Tout ce qu'il faut savoir

Qu'est-ce que l'intégration de données ? Le guide ultime

Huit exigences en matière de gestion des données pour le lac de données de l'entreprise