Le site webinar de ce mois-ci était consacré à big data et comment les clients peuvent utiliser SnapLogic Elastic Integration Platform et SnapLogic Elastic Integration Platform. SnapReduce 2.0. Lors de la discussion et de la démonstration en direct d‘hier, nous avons discuté avec Greg Benson, directeur scientifique de SnapLogicIl est professeur d‘informatique à l‘université de San Francisco et travaille depuis plus de 20 ans dans le domaine de la recherche sur les systèmes distribués, la programmation parallèle, les noyaux de systèmes d‘exploitation et les langages de programmation. Le site webinar est entré dans les détails de SnapReduce 2.0 pour l‘intégration des big data (nous y reviendrons plus tard), mais nous avons d‘abord parlé d‘Hadoop en termes de son histoire, de son avenir et de ses implications pour l‘entreposage traditionnel des données d‘entreprise. Voici un bref récapitulatif :
- Le parcours des Big Data : Greg a parlé des premières initiatives et des premiers cas d‘utilisation, ainsi que de la quantité de "données épuisées" laissée sur le sol.
- Hadoop et l‘entreposage de données : Nombreux sont ceux qui pensent que Hadoop et l‘écosystème Hadoop finiront par remplacer les entrepôts de données relationnels actuels en raison de l‘économie de Hadoop et de ce qui est désormais possible en termes de stockage de données. Pour l‘instant, cependant, ils sont complémentaires.
- Implications sur l‘intégration des données : Une bonne discussion a eu lieu sur les raisons pour lesquelles les anciennes techniques ne fonctionneront pas dans la nouvelle ère du SMAC et sur la variété des sources et des cas d‘utilisation pour le traitement des données en continu et par lots.
- La nécessité d‘acquérir, de préparer et de fournir des données volumineuses : Cela comprend à la fois le traitement par lots et le traitement en continu pour une nouvelle génération d‘ETL/ELT.
Après la discussion sur les big data, Greg et l‘équipe ont abordé SnapReduce 2.0 et le concept de mise à l‘échelle élastique, avec une session de questions-réponses pour répondre aux questions des clients et des prospects. Vous trouverez ci-dessous les diapositives de la présentation et les questions :
Comment faire fonctionner SnapLogic entre deux nuages... disons Salesforce sur un site cloud et les données sociales sur un autre site cloud?
La première chose à comprendre est que SnapLogic Snaplex respecte la gravité des données. D‘après cette question, il semble que les "services" soient considérés comme des nuages distincts. SnapLogic connecte facilement des services et des applications distincts et peut le faire soit dans notre cloud , soit par le biais d‘un Snaplex fonctionnant sur place ou dans un VPC. Comme nous l‘avons vu dans le site webinar, avec SnapReduce, le Snaplex peut désormais fonctionner de manière native comme une application YARN au sein d‘un cluster Hadoop.
Est-il possible d‘effectuer des transformations sur les données avant qu‘elles ne soient écrites sur HDFS ?
Oui, tout à fait. Lorsque des données sont transmises en continu à HDFS, elles peuvent être filtrées ou transformées avant d‘être écrites sur HDFS.
Les flux de données (pipelines) sont-ils convertis en fichiers jar ou en quelque chose comme pig ?
Le code MapReduce est généré directement et transmis à Hadoop sous la forme d‘un fichier jar.
SnapLogic peut-il écrire directement un fichier .tde pour Tableau ou s‘agit-il d‘un fichier CSV que Tableau convertit ensuite dans son format natif ?
SnapLogic Tableau Snap écrit directement dans un TDE.
Une fois que j‘ai lu les données de HDFS à l‘aide de HDFS Reader, serais-je en mesure de faire une jointure avec les données se trouvant sur une source / base de données (viz. Oracle) / SQL Server) ? Si oui, où ce pipeline sera-t-il exécuté ?
Oui, c‘est possible et dans ce scénario, le pipeline s‘exécutera dans Hadoop, mais sur un seul nœud Hadoop. Il ne s‘exécutera pas en tant que tâche MapReduce.