Le lac de données va-t-il noyer l'entrepôt de données ?

Mark MadsenCe billet est le premier d'une série qui présentera des extraits du nouveau livre blanc : Le lac de données va-t-il noyer l'entrepôt de données ? Le document est rédigé par Mark Madsen, fondateur et président de Third Nature. Third Nature est une société de conseil spécialisée dans l'analyse et la gestion de l'information, ainsi que dans l'infrastructure technologique nécessaire pour les soutenir. Mark Madsen est un consultant et un analyste industriel réputé qui intervient fréquemment lors de conférences et de séminaires aux États-Unis et en Europe et qui écrit pour un certain nombre de publications industrielles de premier plan.

Pour en savoir plus sur SnapLogic pour l'intégration des big data, visitez notre site Web et ne manquez pas de consulter le site webinar que nous avons organisé avec Mark le mois dernier et qui s'intitule : " Building Enterprise Data Lake " : Construire le lac de données de l'entreprise : Considérations importantes avant de se lancer.

"Les nouvelles opportunités commerciales exigent un nouveau plateforme pour traiter les données. L'entrepôt de données a été utilisé pour répondre à de nombreux besoins différents en matière de requêtes et de rapports, mais les organisations veulent un outil polyvalent, multi-applications et multi-utilisateurs plateforme qui réponde à d'autres besoins que les requêtes et les rapports : le lac de données (data lake).

Jusqu'à présent, la plupart des déploiements de lacs ont été réalisés au moyen d'un codage manuel et d'une intégration personnalisée. La plupart de ces efforts de développement constituent la première étape du travail - une fois cette étape franchie, le travail utile de création d'applications commerciales peut commencer.

données_lake_mark_madsenLe codage manuel des applications de traitement des données est courant car le traitement des données est considéré comme un travail spécifique à une application. Malheureusement, cet effort manuel est un investissement sans avenir à long terme, car les produits prendront en charge les tâches répétitives. Les nouveaux produits s'amélioreront avec le temps, contrairement au code personnalisé construit dans une entreprise qui devient un fardeau de maintenance au fur et à mesure qu'il vieillit.

Les responsables technologiques se trouvent donc aujourd'hui dans une position délicate. Les anciens environnements de stockage de données et les outils d'intégration sont efficaces, mais ils ne peuvent pas répondre à la plupart des nouveaux besoins. Les nouveaux environnements sont axés sur le traitement des données, mais nécessitent beaucoup de travail manuel. Faut-il acheter, construire ou intégrer des composants ? Que faut-il acheter ou construire ?

La réponse à cette question est de se concentrer non pas sur des technologies spécifiques comme Hadoop, mais sur l'architecture. En particulier, il faut se concentrer sur la manière de fournir la nouvelle capacité essentielle d'un lac de données, à savoir le traitement des données à usage général".

En quoi un lac de données est-il différent ?

"La capacité principale d'un lac de données, et la source d'une grande partie de sa valeur, est la capacité de traiter des données arbitraires. C'est ce qui le différencie fondamentalement d'un entrepôt de données. Les besoins fonctionnels du lac comprennent la capacité de prendre en charge les éléments suivants :

  • Stocker des ensembles de données de toute taille
  • Traiter et normaliser les données, quelle que soit leur structure ou leur forme.
  • Intégrer des ensembles de données disparates
  • Transformer des ensembles de données d'une forme à une autre
  • Gérer les données stockées et générées par le plateforme
  • Fournir un site plateforme pour l'exploration des données
  • Fournir un site plateforme qui permet un traitement analytique ou algorithmique complexe
  • Soutenir le cycle de vie complet des données, de la collecte à l'archivage en passant par l'utilisation
  • Affiner et fournir des données dans le cadre des processus opérationnels, du traitement par lots au temps quasi réel".

Dans le prochain billet de cette série, Mark décrira les nouvelles exigences et l'architecture du lac de données. N'oubliez pas de télécharger l'intégralité du livre blanc et de consulter la récente présentation de Mark sur webinar avec SnapLogic ici.

Nous recrutons !

Découvrez votre prochaine grande opportunité de carrière.