Streaming Data et Data Lakes à #StrataHadoop World

Ravi DRavi Dharnikota, expert en big data et responsable de l'architecture d'entreprise chez SnapLogic, a été présenté dans l'émission Gestion de l'information qui relate ses observations lors du Strata+Hadoop World qui s'est tenu le mois dernier à San Jose. Le principal constat est que les participants et les sessions étaient principalement axés sur les données en continu, les lacs de données et Apache Spark pour l'analyse. Il a noté : "L'innovation et le changement continus dans l'industrie du big data permettent des améliorations rapides et fréquentes de la technologie, mais il est difficile de les suivre dans une organisation où il y a des priorités et des projets concurrents."

Vous pouvez lire l'intégralité des questions-réponses ci-dessous. 

Gestion de l'information : Quels sont les thèmes les plus courants que vous avez entendus parmi les participants à la conférence Strata+Hadoop World et comment ces thèmes correspondent-ils à ce que vous attendiez ?

Ravi Dharnikota : Par rapport à l'événement de 2015, cette année s'est un peu éloignée des discussions académiques sur le dernier projet Apache et s'est orientée vers des cas d'utilisation réels. Cette année, j'ai beaucoup entendu parler de :

  • Streaming - ingestion, traitement et analyse de données en continu.
  • Lac de données - Comment bien faire le lac ; ingestion ; gouvernance ; préparation des données.
  • Spark - Un énorme changement vers le support des technologies à exécuter sur Spark en tant que plateforme.

IM : Quels sont les défis les plus courants auxquels les participants sont confrontés en matière de données ?
RD : L'un des défis les plus courants en matière de gestion des données est tout simplement leur omniprésence. Elles sont omniprésentes dans l'organisation. Il faut trouver un moyen de les rassembler en un seul endroit, de les rendre consultables et utilisables par tous, tout en mettant en place des "garde-fous".

L'autre défi est que l'écosystème des big data est à la fois en constante évolution et peut être assez bruyant avec des messages qui se chevauchent de la part des vendeurs et des irréductibles de l'open source. Les organisations qui veulent simplement faire avancer les choses pour stimuler les pratiques commerciales ont besoin de l'aide de cadres finaux.

IM : Quelles sont les choses les plus surprenantes que les participants vous ont dites ?
RD : Aucune n'est vraiment surprenante, mais cela vaut la peine d'être noté :

Les clients se rendent compte qu'aussi ouverte et flexible que soit la vision d'un lac de données, il doit y avoir une certaine gouvernance avec des contrôles d'accès appropriés, des audits et des considérations sur la sensibilité des données. En outre, les données doivent être facilement consultables par toute personne cherchant des données dans le lac.

Le lac de données ne se limite pas à Hadoop. Il pourrait se trouver sur le site cloud d'Amazon, de Microsoft ou de Google.

Beaucoup d'entreprises ont à la fois Hortonworks et Cloudera dans leur cluster de données.

IM : Quels sont, selon votre entreprise, les principaux problèmes ou défis liés aux données en 2016 ?
RD : Les organisations en dehors de l'industrie des technologies lourdes ont besoin de conseils et d'aide pour démocratiser les données.

Il n'existe pas de "meilleure pratique" définie par l'industrie pour bien gérer les données dans le contexte moderne du big data.

Le manque de compétences en matière de big data continuera à nécessiter des plateformes et des outils en libre-service qui font abstraction de la technologie et la rendent facile à utiliser.

Bien que l'innovation et le changement continus dans l'industrie du big data permettent des améliorations rapides et fréquentes de la technologie, il est difficile de les suivre dans une organisation où il y a des priorités et des projets concurrents.

IM : Comment ces thèmes et défis se rapportent-ils à la stratégie de marché de votre entreprise cette année ?
RD : La
stratégie de SnapLogic en matière de big data vise à faciliter le suivi des changements dans l'écosystème des big data pour les organisations qui ne sont pas en mesure de consacrer des ressources à la création et à l'amélioration de leur système de déplacement, de gestion et de consommation des données.

Notre stratégie consiste à considérer le lac de données dans son ensemble et à déterminer ce dont une entreprise a besoin pour mener à bien ses initiatives de gestion des données. Cela peut inclure des aspects tels que la sécurité, le streaming, les formats de stockage, la gouvernance, les métadonnées, etc.


Prochaines étapes :

Catégorie : Données

Nous recrutons !

Découvrez votre prochaine grande opportunité de carrière.