Le traitement des données volumineuses est désormais facilité par SnapLogic eXtreme

Alors que les entreprises poursuivent leur parcours de transformation numérique et découvrent les avantages des architectures big data, elles cherchent à migrer leurs lacs de données vers le site cloud pour réaliser des économies, traiter les données et bénéficier d‘une mise à l‘échelle. Cependant, la connexion des environnements de données basés sur cloud et la création de pipelines Apache Spark nécessitent des connaissances techniques et des ressources importantes.

Avec SnapLogic eXtreme, notre nouvelle solution big data, SnapLogic rend pour la première fois viable pour les entreprises le traitement des big data basé sur cloud en offrant flexibilité, évolutivité et réduction de l‘OpEx, sans parler de la diminution du besoin de compétences spécialisées pour gérer les clusters big data. SnapLogic permet également aux entreprises de rentabiliser leurs investissements dans le big data en devenant véritablement axées sur les données.

Traitement des big data : Un bref historique

La découverte d‘informations commerciales à l‘aide du traitement des big data a connu un succès mitigé, de nombreuses entreprises n‘étant pas en mesure de démontrer un retour sur investissement convaincant. Au début, les entreprises traitaient de gros volumes de données en créant un cluster Hadoop sur site à l‘aide d‘une distribution telle que Cloudera, Hortonworks ou MapR. Les données analysées étaient principalement structurées et nécessitaient un investissement initial important pour l‘achat du matériel nécessaire. De plus, Hadoop est une entité complexe à gérer et à surveiller, qui nécessite des compétences spécialisées, et les personnes possédant ces compétences sont rares.

À mesure que les entreprises constatent l‘augmentation des avantages commerciaux du big data, elles créent ou migrent leur architecture big data sur le site cloud afin de profiter des économies considérables réalisées sur les coûts d‘exploitation, de la puissance de traitement des données quasiment illimitée et des options d‘évolution instantanées offertes par le site cloud .

De nombreuses entreprises procèdent à un "lift and shift", c‘est-à-dire qu‘elles déplacent le cluster sur site vers le site cloud. Cela présente l‘avantage de ne pas avoir à engager d‘importantes dépenses d‘investissement pour mettre en service le cluster et démarrer. Cependant, étant donné qu‘elle est toujours gérée et surveillée par l‘entreprise, cette stratégie ne résout en rien le problème de l‘OpEx et de la pénurie de compétences. Par conséquent, les entreprises attendent toujours les avantages promis (réduction des dépenses d‘exploitation, accélération du transfert de technologie et retour sur investissement).

Pour la majorité des entreprises, la gestion et la surveillance des environnements Hadoop n‘apportent pas d‘avantage concurrentiel, et elles cherchent donc un meilleur moyen de transformer les données à grande échelle. Le BDaaS fournit un tel environnement de transformation des données. Comme il s‘agit d‘un service géré, il permet de réduire considérablement le temps consacré à la gestion et à la surveillance du cluster, ce qui permet aux entreprises de se concentrer sur leurs principaux avantages concurrentiels. Cependant, la connexion d‘environnements big data basés sur cloud avec diverses sources de données, tout en créant des pipelines Apache Spark pour transformer ces données, nécessite des connaissances hautement techniques et des ressources de codage continues de la part des ingénieurs de données et des groupes informatiques de base, ce qui se traduit par des coûts opérationnels prohibitifs et un délai de rentabilité plus long.

SnapLogic eXtreme

Avec SnapLogic eXtreme, SnapLogic rend pour la première fois les big data basées sur cloud viables pour les entreprises en offrant flexibilité, évolutivité et réduction de l‘OpEx. Les ingénieurs de données peuvent utiliser SnapLogic eXtreme pour réduire les coûts prohibitifs et les besoins en ressources auxquels de nombreuses entreprises sont confrontées lorsqu‘elles construisent et exploitent des architectures big data sur le site cloud. En conséquence, les ingénieurs de données, les analystes commerciaux et autres peuvent se concentrer sur l‘obtention d‘informations plus opportunes à partir des big data, sur l‘amélioration de la prise de décision et sur l‘accélération de la mise sur le marché.

Un exemple de Customer 360

Toutes les entreprises souhaitent mieux comprendre leurs clients et ont généralement mis en place une initiative visant à les aider à obtenir une vue à 360 degrés. Cependant, l‘un des défis à relever pour obtenir la vision la plus large possible de leurs clients réside dans le fait que les données clients sont conservées en silos. Pour obtenir une vue complète d‘un client, il faut combiner et enrichir ses données clients à partir de sources multiples. Tout d‘abord, il faut ingérer les données clients d‘un CRM basé sur cloud tel que Salesforce, les journaux de parcours de leur site web, les journaux d‘assistance client de leur application de service client et les flux de médias sociaux tels que Twitter. Ces sources de données contiennent des données structurées et semi-structurées.

Grâce à l‘interface utilisateur graphique de SnapLogic, les ingénieurs de données peuvent exploiter plus de 450 connecteurs intelligents préintégrés ou Snaps pour créer des pipelines de données en quelques clics et capturer des données structurées à partir de systèmes sur site tels que des bases de données relationnelles et des applications basées sur cloud(Salesforce), ainsi que des données semi-structurées telles que les médias sociaux Twitter et les données de flux de clics de leur site Web. Toutes ces données sont capturées dans leur format brut et atterrissent dans leurs services de stockage de lac de données basés sur cloud, tels qu‘Amazon S3 ou Azure Data Lake Store.

En utilisant la même interface graphique, les ingénieurs peuvent alors créer rapidement des pipelines Apache Spark transformateurs avec les capacités plex éphémères de SnapLogic pour traiter plus facilement les grands volumes de données provenant de ces sources. Le premier pipeline Spark exécuté entraîne le démarrage du cluster Amazon EMR éphémère. Le cluster qui est démarré est basé sur la configuration spécifiée dans l‘interface utilisateur. Les exécutions suivantes du pipeline réutilisent le cluster existant. Une fois que tous les traitements sont terminés et que le cluster est inactif pendant un certain temps, le cluster est arrêté, ce qui permet d‘économiser de l‘OpEx. Une fois les transformations terminées, les données sont réécrites dans le lac de données, généralement dans un format en colonnes tel que Parquet.

Enfin, les données sont transmises du lac de données basé sur cloud aux systèmes finaux qui peuvent inclure des entrepôts de données cloud , tels que Snowflake ou des outils de BI tels que Tableau.

Un unifié plateforme

SnapLogic eXtreme fait partie de la gamme d‘intégration en libre-service de SnapLogic plateforme, l‘Enterprise Integration Cloud (EIC), et peut être utilisé pour construire et soumettre de puissantes transformations Spark grâce à son interface de programmation visuelle. La puissante combinaison de l‘EIC et de SnapLogic eXtreme réduit le temps, le coût et la complexité des intégrations big data sur cloud . Avec une architecture de données entièrement gérée sur le site cloud, les clients bénéficient d‘une absence de dépenses d‘investissement, d‘une réduction des dépenses d‘exploitation et d‘une absence de déficit de compétences. Les intégrations complexes de big data qui prenaient des semaines ou des mois peuvent désormais être réalisées en quelques jours. Qu‘est-ce qui ne plaît pas ?

Mark Gibbs

Vice-président de la gestion des produits chez SnapLogic

Catégorie : Données

Thèmes : Big Data Intégration des données

SnapLogic eXtreme facilite le traitement des Big Data

Blogs associés

SnapLogic ♥ OpenLineage : Une combinaison parfaite pour l'intégration des données

Simplifier l'extraction de données SAP pour Snowflake : Surmonter la complexité et les coûts avec SnapLogic

Plan de données et plan de contrôle : Quelle est la différence ?