Le voyage des données : De l‘entrepôt de données aux marts de données et aux lacs de données

Par Mark Gibbs

Publié en septembre 19, 2018

3 min read

Les données étant de plus en plus reconnues comme la monnaie d‘entreprise de l‘ère numérique, de nouvelles questions se posent sur la manière dont ces données doivent être collectées, gérées et exploitées dans le cadre d‘une architecture de données globale de l‘entreprise.

Entrepôts de données : Modèle de choix

Au cours des dernières décennies, les entrepôts de données ont été le modèle de choix, utilisé par les entreprises pour extraire des données structurées de systèmes opérationnels tels que les progiciels de gestion intégrés (ERP) et les plates-formes de gestion de la chaîne d‘approvisionnement (SCM). Les entreprises ont consolidé et centralisé les données, et se sont appuyées sur des outils de veille stratégique et d‘aide à la décision pour réaliser des rapports et des analyses historiques approfondies. Alors que l‘entrepôt de données sert de référentiel centralisé et polyvalent sous la responsabilité du service informatique, les marts de données sont apparus comme un sous-ensemble de la technologie conçu pour répondre aux besoins spécifiques de reporting d‘un département ou d‘une fonction de l‘entreprise. Les entrepôts de données sont construits selon une approche descendante et stockent des données détaillées et structurées, tandis que les marts de données émanent généralement d‘une approche ascendante dans le but d‘héberger une forme résumée de données sélectionnées.

Ces deux approches ont coexisté et connu le succès pendant des années. Mais l‘avènement de données plus volumineuses et plus variées - y compris les informations non structurées telles que les blogs, les images, les vidéos, les messages directs et le flux quasi infini de données en temps réel de l ‘Internet des objets (I oT) - pose des défis que les architectures traditionnelles d‘entrepôt de données et de datamart ne sont tout simplement pas en mesure de relever. En outre, la vision centralisée d‘un entrepôt de données unique ne s‘est jamais totalement concrétisée, laissant la plupart des organisations avec une multitude de silos de données, ce qui peut entraver une prise de décision efficace.

Le passage aux lacs de données

Une étude menée par Vanson Bourne a révélé que les données déconnectées, propagées par les systèmes existants et les architectures de données obsolètes, coûtent cher aux entreprises. Selon l‘enquête menée auprès de responsables informatiques et d‘utilisateurs professionnels, les organisations aux États-Unis et au Royaume-Uni perdent 140 milliards de dollars par an en perte de temps et de ressources, en dédoublement des efforts et en opportunités manquées à cause de données déconnectées. Plus de la moitié des personnes interrogées (56 %) ont déclaré que les silos de données constituaient un obstacle à la réalisation des objectifs commerciaux de leur organisation.

Le lac de données (data lake) est la dernière version d‘un site centralisé plateforme pour la collecte et le traitement des données, cette fois avec une architecture plate, sans schéma, typiquement construite autour d‘Hadoop et adaptée au traitement des données à usage général. Comme un entrepôt de données, le lac de données peut stocker diverses sources de données, mais à la différence, les données n‘ont pas besoin d‘être nettoyées et transformées au cours du processus d‘acquisition. L‘absence de structure et de schéma prédéfini confère au lac de données une plus grande polyvalence, ce qui le rend bien adapté à la découverte de données et à un plus large éventail de cas d‘utilisation analytique. En outre, un lac de données est capable d‘ingérer et de traiter des données en temps réel, ce qui correspond mieux à l‘immédiateté des applications commerciales numériques d‘aujourd‘hui.

Complémentaire, pas de remplacement

Alors que certains présentent le lac de données comme un substitut à l‘entrepôt de données, de nombreux experts en gestion de données ne voient pas les choses de cette manière. Ils considèrent plutôt les deux technologies comme complémentaires, chacune répondant à un cas d‘utilisation particulier. Par exemple, l‘entrepôt de données convient parfaitement aux utilisateurs professionnels qui ont besoin de travailler avec des informations préagrégées et pré-intégrées destinées à des applications d‘analyse historique. Les lacs de données, quant à eux, conviennent aux data scientists et autres personnes qui souhaitent travailler avec des données brutes, peut-être pour construire des modèles basés sur l‘apprentissage automatique et qui ont besoin d‘une découverte, d‘une exploration et d‘un test rapides - des processus liés à la nouvelle génération d‘analyses prescriptives et prédictives.

Lors de la planification d‘un lac de données, une chose est claire : les entreprises doivent définir une nouvelle architecture et investir dans des outils qui permettront l‘intégration et prendront en charge le traitement de bout en bout, y compris l‘acquisition, la transformation et l‘accès aux données. Avec une telle infrastructure en place, les organisations peuvent aller de l‘avant avec la nouvelle génération d‘applications basées sur les données qui seront le moteur du succès de l‘entreprise numérique.