Spark the Spark avec SnapLogic‘s Hadooplex

Pour connecter plus rapidement vos données, vos applications, vos API et l‘Internet des objets (IOT), libérez la puissance de Spark sur Hadooplex de SnapLogic.

Il y a un afflux massif de données provenant de nombreuses sources, allant des journaux de serveurs web aux données relayées par les appareils IOT qui remplissent le lac de données. Les entreprises sont confrontées au défi de traiter de manière optimale cet énorme volume de données sur leur lac de données pour en tirer des informations à des fins telles que la recommandation de produits, la publicité, l‘acquisition et l‘engagement des clients, la détection des fraudes, l‘optimisation des coûts et bien d‘autres encore. L‘offre Spark de SnapLogic vous permet de tirer parti de la puissance de Spark pour transformer l‘énorme volume de données avec des performances élevées.

Hadooplex est un moteur de traitement de données de la plateforme d‘intégration élastique de SnapLogic déployé sur un cluster Hadoop. C‘est un Snaplex qui est installé sur un cluster Hadoop. Un Hadooplex peut exécuter des pipelines en mode Standard et en mode Spark.

Au cœur de Hadooplex se trouve le processus Yarn Application Master (Hadooplex Master). Le maître Hadooplex est chargé de négocier les ressources auprès du gestionnaire de ressources Yarn et de communiquer avec le(s) gestionnaire(s) de nœuds pour exécuter et surveiller les conteneurs et leur consommation de ressources.

Un Hadooplex peut être configuré pour activer le support Spark qui permet la création d‘un pipeline Spark pour l‘exécution en utilisant le moteur Spark. Les pipelines Spark permettent aux utilisateurs de SnapLogic de construire une logique de flux de données en utilisant le paradigme Snap et pipeline qui s‘exécuterait comme un programme Spark. Lorsque les pipelines Spark sont exécutés sur un Hadooplex, ce dernier demande au gestionnaire de ressources YARN de planifier l‘exécution du pilote Spark SnapLogic. Chaque instance de pilote Spark SnapLogic gère l‘exécution d‘un pipeline Spark.

Les détails concernant l‘architecture de haut niveau, les prérequis et le lancement d‘Hadooplex avec Spark sont disponibles sur la page de documentation de SnapLogic.

Le prochain blog de cette série vous présentera les différents snaps disponibles pour construire le pipeline Spark afin de tirer parti de la puissance de Spark. En attendant, découvrez comment construire et exécuter des pipelines Spark sur HDInsight, regardez une démonstration de construction de pipelines Spark sur la plateforme d‘intégration élastique de SnapLogic, ou contactez-nous si vous souhaitez obtenir plus d‘informations sur les solutions SnapLogic pour Spark.

Catégorie : Intégration

Sujets : Hadoop Pipeline Snaplex

Spark the Spark avec SnapLogic‘s Hadooplex

Blogs associés

Ingestion, transformation et flux de données dans Spark

SnapLogic et le lac de données

Connectez-vous plus rapidement : Outils modernes d‘intégration Cloud et Big Data