Apprendre le Spark Script Snap

SnapLogic propose un service d'intégration de big data plateforme as a service (iPaaS) permettant aux entreprises de traiter leurs données de manière simple, intuitive et puissante. SnapLogic fournit un certain nombre de modules différents appelés Snaps. Un module individuel Snap offre un moyen pratique d'obtenir, de manipuler ou de produire des données, et chaque Snap correspond à une opération de données spécifique. correspond à une opération de données spécifique. Tout ce que le client a à faire, c'est de faire glisser les Snaps correspondants ensemble et de les configurer, ce qui crée un pipeline de données. Les clients exécutent des pipelines pour gérer des flux d'intégration de données spécifiques.

Figure 1 - Exemple de pipeline SnapLogic
Figure 1 - Exemple de pipeline SnapLogic

SnapLogic Spark Snap Script : Introduction

Figure 2 - Exemple de visualisation d'un pipeline Spark avec erreur
Figure 2 - Exemple de visualisation d'un pipeline Spark avec erreur

Le Spark Script Snap permet aux clients d'étendre la fonctionnalité de SnapLogic plateforme pour gérer les tâches Spark, soit en ajoutant des scripts personnalisés pour leur logique d'entreprise propriétaire qui ne font pas partie de la vaste collection standard de SnapLogic, soit en réutilisant des scripts existants. Le système SnapLogic exécute le Spark Script Snap comme une tâche Spark séparée. En fait, le Spark Script Snap permet au client d'écrire des scripts Spark dans le SnapLogic Designer.

Figure 3 - Le script Spark Snap
Figure 3 - Le script Spark Snap

Spark Script Snap permet également de transmettre des propriétés Spark au script Spark Python via des variables d'environnement. Cela permet aux utilisateurs de créer des scripts et des configurations Spark réutilisables, tels que le nom de l'application, la taille de la mémoire et le maître Spark.

Figure 4 - Propriétés de l'encapsulation du script Spark
Figure 4 - Propriétés de l'encapsulation du script Spark

Propriétés:

En plus des champs Snap habituels, Spark Script Snap propose des suggestions pour hdfs "Directory", "Input Path" et "Output Path". Le champ "Directory" n'affiche que le répertoire, mais "Input path" et "Output path" peuvent afficher à la fois des fichiers et des répertoires.

Pour exécuter Spark Script Snap sur un cluster, les clients peuvent choisir entre deux types de gestionnaire de cluster (soit le gestionnaire de cluster autonome de Spark, soit YARN), qui répartit les ressources entre les applications.

Figure 5 - Propriétés de l'encapsulation du script Spark
Figure 5 - Propriétés de l'encapsulation du script Spark
  • Standalone - une simple gestion de cluster associée à l'écosystème Spark
  • Hadooop YARN - le gestionnaire de ressources dans l'écosystème Hadoop

Si vous utilisez le mode Standalone, mettez l'URL Master dans le champ master et définissez Master dans votre Spark Script, ou laissez le champ vide. Si vous utilisez le mode YARN, il n'est pas nécessaire de définir Master.

Le champ "Spark home" est facultatif. S'il est vide, Spark Script Snap utilisera la valeur par défaut "Spark home", le chemin où les clients ont installé Spark dans leur cluster. Dans le cas contraire, les utilisateurs peuvent spécifier le chemin d'accès à Spark de leur cluster.

Lorsque vous cliquez sur "Editer le script", le Spark Script Snap fournit un modèle pour exécuter l'exemple de comptage de mots. Il explique également comment utiliser les variables d'environnement, comme le montre la figure 4. L'utilisateur peut modifier le script directement dans la boîte ou coller un script fourni par un collègue scientifique.

Figure 6 - Modèle d'encliquetage du script Spark
Figure 6 - Modèle d'encliquetage du script Spark

Liens

Il existe une vidéo de démonstration étape par étape de Spark Script Snap ici.

Il y a beaucoup d'informations sur SnapLogic l'intégration des big data et les services intégrés cloud sur notre site web, ainsi que des desarticles de blog sur l'intégration des big data, des informations sur l'iPaaS, et des livres blancs.

Catégorie : Produit
Sujets : Tutoriel Snaps

Nous recrutons !

Découvrez votre prochaine grande opportunité de carrière.