Architecture de données d‘entreprise moderne

Les données sont un actif essentiel dont chaque entreprise a besoin pour être compétitive dans l‘économie d‘aujourd‘hui. Cependant, la valeur des données ne peut être réalisée que lorsqu‘elles sont utilisées de manière stratégique, opérationnelle, cohérente et précise dans l‘ensemble de l‘entreprise. Or, cela n‘est pas chose aisée. Aujourd‘hui, les entreprises se tournent vers les données en tant que service (DaaS) dans le cadre de leur stratégie de données cloud afin de garantir des niveaux élevés de SLA, de gouvernance des données, de précision et de haute disponibilité exigés par les clients, la stratégie commerciale et les processus d‘entreprise. Pour tirer pleinement parti d‘une approche DaaS, elles doivent mettre en place une architecture de données moderne et disposer d‘une feuille de route et d‘une méthodologie pour y parvenir.

Qu‘est-ce que l‘architecture des données ?

Conçue par des architectes de données, l‘architecture de données standardise la manière dont les entreprises collectent, stockent, transforment, distribuent et utilisent les données afin d‘aider les analystes de données et les personnes au sein de l‘organisation à prendre de meilleures décisions sur la base d‘informations commerciales en temps réel. L‘architecture de données est le fondement de la modélisation des données et de l‘architecture de l‘information, qui permettent toutes deux de rendre les données utiles à l‘ensemble de l‘organisation.

Si l‘architecture de données n‘est pas nouvelle, l‘architecture de données d‘entreprise moderne (ou architecture de données moderne) l‘est et a évolué à mesure que les entreprises passaient de plus en plus à cloud. Seul cloud offre la vitesse, l‘évolutivité et la facilité d‘utilisation nécessaires à l‘efficacité de l‘architecture de données moderne. Le passage des entreprises à des infrastructures basées sur cloud entraîne également une transformation de leur architecture de données.

Qu‘est-ce qu‘une architecture de données moderne ?

Une architecture de données moderne se concentre sur l‘alignement des données sur les capacités offertes par cloud. L‘architecture de données traditionnelle était construite sur des modèles de données sur site qui nécessitaient beaucoup de temps pour le traitement et la gestion des données. Avec l‘abstraction de l‘infrastructure grâce à cloud, l‘architecture de données moderne s‘attache à rendre les données aussi faciles d‘accès et aussi utiles que possible pour l‘entreprise et le client. Elle facilite la facilité, la rapidité, la collaboration, l‘analyse en temps réel et la cohérence.

L‘architecture moderne des données est :

Conçu pour que les utilisateurs finaux puissent l‘utiliser. Le site cloud permet aux utilisateurs finaux de déterminer les données dont ils ont besoin pour prendre leurs décisions et aux architectes de données de concevoir un accès aux données qui réponde à leurs besoins.
Automatisé avec des pipelines et des flux de données. Personne n‘a le temps d‘attendre la lenteur du traitement des données. Grâce à cloud et à l‘intégration des données, les entreprises peuvent automatiser l‘ensemble du processus de gestion des données afin que les données circulent librement et sans heurt partout où elles doivent aller dans l‘organisation, tout en maintenant la gouvernance des données. L‘intégration des données est essentielle pour s‘assurer que chaque partie de l‘ensemble est connectée.
Créé par AI/ML. L‘architecture de données d‘entreprise moderne exploite la puissance de l‘intelligence artificielle (IA) et de l‘apprentissage automatique (ML) pour automatiser le traitement des données, reconnaître de nouveaux types de données, nettoyer les données, résoudre les problèmes de qualité des données, effectuer l‘exploration des données, assurer le maintien des normes de données, et faire remonter à la surface les analyses et les connaissances sur les données. L‘IA/ML est la clé de la rapidité et de la précision de l‘automatisation.
Évolutif pour répondre aux demandes imprévisibles. Les données sont générées et consommées à des rythmes extraordinaires, et comme les entreprises font face à des fluctuations dans les demandes des consommateurs, elles doivent être en mesure de faire évoluer les données à la hausse et à la baisse, automatiquement et à un prix abordable.
Partageable pour une collaboration fiable. Le partage des données est essentiel pour s‘assurer que tout le monde travaille à partir de la même source de données véridiques. Les données partagées contribuent également à briser les silos départementaux et à favoriser une collaboration plus facile et plus fiable.
Sécurisé dès la conception. Pour la plupart des entreprises, les données constituent leur actif le plus précieux. Une architecture de données moderne prend en compte la sécurité des données avec un accès et une autorisation contrôlés, ainsi que la conformité aux lois et réglementations sur la confidentialité des données telles que GDPR et HIPAA.

Si vous créez une architecture de données à partir de zéro sur cloud, il est facile d‘intégrer ces caractéristiques. Mais la plupart des entreprises sont à cheval sur une infrastructure patrimoniale sur site avec cloud, et souvent plusieurscloud. Leurs données résident à de multiples endroits et sont généralement fortement cloisonnées. Les migrations de données vers cloud et les intégrations de données sont une priorité.

Outre les six caractéristiques d‘une architecture de données moderne, vous devrez également veiller à ce que votre conception facilite les éléments suivants :

Favorise l‘évolution vers le libre-service et la multiplicité des types d‘utilisateurs (intégrateurs, scientifiques des données, responsables opérationnels, parties prenantes).
Permet une entreprise hyperconnectée (considérez les données comme les nerfs reliant chaque partie du corps, transmettant de manière transparente les informations nécessaires).
Le reporting passe à l‘analyse prédictive et prescriptive pour des informations en temps réel, des recommandations basées sur l‘IA et une prise de décision à l‘instant même.
Une pérennité pour les nouvelles sources de données, les applications en aval et les cas d‘utilisation

3 étapes du parcours de l‘entreprise de données moderne

Parce que les entreprises se transforment numériquement et s‘orientent vers le site cloud, elles entreprennent généralement un parcours en plusieurs étapes pour mettre en place une architecture de données moderne.

Ce processus peut être décomposé en trois étapes principales :

Étape 1 - Sur place

La plupart des entreprises disposent de systèmes sur site, avec les outils nécessaires pour stocker et traiter des ensembles de données volumineux et effectuer des transformations complexes. Cet environnement représente un défi pour les raisons suivantes :

Elle nécessite un important investissement en capital au départ et un investissement important en frais d‘exploitation (OpEx) pour le personnel nécessaire.
Il faut un ensemble de compétences spécialisées et dédiées pour gérer les outils de big data.
Il en résulte un temps de réponse lent, y compris le délai d‘achat, d‘expédition et d‘installation de l‘environnement de données.

Les entreprises ont fonctionné de la sorte pendant plusieurs décennies et ont généralement investi massivement dans des modèles sur site. Non seulement il y a un investissement financier, mais le risque de perdre des données ou de déconnecter des intégrations personnalisées peut être trop important pour une migration complète vers cloud . De nombreuses entreprises possèdent des données qu‘elles estiment devoir rester dans le giron de leurs propres serveurs et adoptent donc une approche hybride cloud .

Étape 2 - Cloud: Cloud privé virtuel (VPC)

Au fur et à mesure qu‘elles adoptent le site cloud, la deuxième étape est celle du "lift and shift", où les entreprises déplacent simplement des clusters sur site vers un fournisseur cloud fonctionnant dans un réseau privé virtuel cloud et peuvent profiter des avantages de l‘IaaS, tels qu‘un coût plus faible. Selon Forrester, les entreprises qui déploient leurs services sur le site cloud économisent de 20 à 60 % par rapport au coût de l‘infrastructure sur site, car la plupart d‘entre elles surprovisionnent leurs serveurs et leurs systèmes de stockage et doivent ensuite gérer ces environnements.

Toutefois, cette étape comporte encore des défis majeurs :

Ne fait rien pour relever les défis de la gestion et de la préservation de l‘environnement
A des coûts d‘exploitation élevés
N‘aborde pas la question de l‘écart entre les compétences et les compétences requises pour gérer les services fonctionnant dans le VPC.
Le temps de réponse est lent
Ne prend pas en charge les services de stockage natifs de cloud

La gestion des nuages sur site et privés est complexe, ce qui conduit souvent les entreprises à rechercher un meilleur moyen de gérer l‘environnement cloud . C‘est ainsi qu‘elles se tournent vers les services gérés cloud .

Étape 3 - Cloud: Big Data en tant que service

À ce stade, les entreprises ont reconnu les défis et les relèvent en passant à cloud- des services gérés tels que ceux d‘IBM, de Microsoft et de Google. Ces services gérés libèrent l‘entreprise de la complexité de la gestion et de la maintenance des environnements de traitement à l‘échelle, et réduisent les dépenses OpEx.

Parmi les autres avantages, citons

Des capacités à la demande qui n‘utilisent les ressources de stockage et de calcul qu‘en cas de besoin, ce qui permet de réduire les dépenses d‘exploitation.
Une façon beaucoup plus simple d‘augmenter et de réduire les volumes en téraoctets et en pétaoctets.
Des temps de réponse plus rapides pour les besoins des entreprises

En outre, les plateformes de big data gérées par cloud sont conçues avec des services de stockage cloud . Elles disposent d‘une intégration native avec le stockage cloud , ce qui vous permet d‘utiliser le stockage cloud comme un composant de stockage distribué adapté au stockage dans un lac de données.

Parlons un peu du stockage des données.

L‘architecture de données moderne a besoin de lacs de données

Un entrepôt de données stocke des données structurées (c‘est-à-dire provenant de systèmes transactionnels). Il est optimisé pour analyser des données relationnelles, et non des données semi ou non structurées. Ainsi, avant d‘écrire de la source de données vers l‘entrepôt de données, la structure doit être définie et les données doivent être nettoyées et transformées. Cela prend du temps et rend plus difficile l‘obtention de données utilisables à la vitesse dont l‘entreprise a besoin. En outre, compte tenu de la quantité de nouvelles données disponibles, le coût de l‘entreposage des données est en fait très prohibitif.

Les lacs de données prennent en charge l‘architecture moderne des données.

Contrairement à un entrepôt de données, un lac de données est une collection de tous les types de données : structurées, semi-structurées et non structurées. Les données sont stockées dans leur format brut sans qu‘il soit nécessaire de les structurer ou de les schématiser. En fait, il n‘est pas nécessaire de définir la structure des données lorsqu‘elles sont capturées, mais seulement lorsqu‘elles sont lues. Les lacs de données étant hautement évolutifs, ils prennent en charge de plus grands volumes de données à un prix plus avantageux. De plus, avec un lac de données, vous pouvez stocker des données provenant de sources relationnelles (comme des bases de données relationnelles) et de sources non relationnelles (appareils/machines IoT, médias sociaux, etc.) sans ETL (extraction, transformation, chargement), ce qui rend les données disponibles pour l‘analyse beaucoup plus rapidement.

4 caractéristiques d‘une architecture de données d‘entreprise moderne

Une architecture de données d‘entreprise moderne présente quatre caractéristiques principales : 1) le cycle des données, 2) le stockage des données, 3) l‘intégration plateforme et 4) la fourniture des données.

Cycle de données

Les entreprises rencontrent constamment de nouvelles sources de données et ont besoin de capturer des données avant de connaître les cas d‘utilisation éventuels. Les données capturées sont extraites pour alimenter les cas d‘utilisation connus et conservées pour des cas d‘utilisation futurs non définis. Les données entrantes doivent ensuite être conformes aux normes de l‘entreprise afin de garantir la gouvernance, la qualité, la cohérence, la conformité réglementaire et l‘exactitude pour les consommateurs en aval, quels que soient leurs besoins commerciaux, leurs compétences ou leur compréhension de l‘architecture des données. Une fois les données capturées et conformes aux normes de l‘entreprise, les services d‘affinage les préparent à leur éventuelle application en aval et/ou à leurs cas d‘utilisation.

Stockage des données

Les données sont stockées dans le lac de données. Le lac de données est considéré comme une usine de données moderne, dans laquelle se trouvent des "conteneurs" pour les différentes étapes du traitement des données. Le premier conteneur est le conteneur d‘atterrissage, où les données brutes entrantes sont reçues indépendamment de leur forme, de leur transport ou de leur source. C‘est là que vont les données non nettoyées. C‘est là que sont prises les décisions concernant les données brutes à conserver. Les données conservées sont déplacées vers le conteneur conforme.

Le conteneur conforme est l‘endroit où les données brutes sont nettoyées et où la qualité des données est assurée. Le conteneur conforme garantit que l‘entreprise travaille avec un ensemble de données cohérent et conforme aux normes.

Ensuite, nous avons le conteneur raffiné qui prépare les données pour leur cible de livraison éventuelle, et il peut y avoir des sous-ensembles de raffineries en fonction des cas d‘utilisation. Une fois les données affinées, elles sont mises en scène pour être livrées à leur destination. Une fois livrées, elles peuvent être déplacées vers une zone de travail pour être utilisées par les scientifiques, archivées pour un stockage à long terme ou supprimées.

Intégration des données plateforme

L‘intégration plateforme prend des données de différentes sources et les combine pour fournir une vue unifiée. Dans une architecture de données moderne, l‘ intégration plateforme doit être suffisamment souple pour prendre en charge toutes les sources et cibles de données requises, ainsi que les services de données à chaque étape du cycle des données. Elle doit pouvoir prendre en charge les données avec ou sans schéma et gérer les métadonnées. En outre, il doit être en mesure de gérer l‘intégration et le traitement requis pour :

Saisie de données à grande vitesse, variées et volumineuses
Intégration d‘applications à faible latence
Traitement de la conformité des données en grande quantité
Intégration des données de la livraison à la cible
Consommation d‘API (essentielle pour les écosystèmes B2B)

En outre, les scénarios ci-dessus doivent être accessibles à une large communauté d‘utilisateurs, allant des professionnels de l‘informatique hautement qualifiés aux utilisateurs professionnels ayant besoin d‘accélérer un projet de ligne d‘affaires en réponse à un environnement commercial en évolution rapide. Dans l‘entreprise moderne, les analystes et les scientifiques des données sont appelés à répondre à des questions stratégiques et à débloquer l‘innovation à un rythme sans précédent et n‘ont tout simplement pas le luxe de dépendre d‘une organisation informatique pour mettre à disposition les informations absolument nécessaires. Le libre-service n‘est plus un luxe ou une commodité, mais une exigence critique. Il est essentiel de pouvoir créer rapidement des pipelines de données pour que l‘entreprise continue à évoluer à la vitesse requise à l‘ère du numérique.

Livraison des données

Enfin, les données doivent être acheminées vers les cibles appropriées. L‘accessibilité sécurisée des données fait partie intégrante de l‘architecture moderne des données. La gouvernance, la sécurité, le contrôle d‘accès basé sur les rôles (RBAC), les accords de niveau de service (SLA), l‘étranglement et l‘analyse de l‘utilisation sont tous essentiels pour fournir les données aux utilisateurs prévus, qu‘il s‘agisse d‘employés internes ou de partenaires externes.

Les entreprises qui adoptent une approche de fourniture de données en tant que service garantissent les plus hauts niveaux de disponibilité, d‘accessibilité et d‘expérience client sans avoir à supporter des dépenses liées à des exercices d‘incendie informatiques constants ou à compromettre la sécurité ou la propriété intellectuelle interne. Les données sont livrées à leurs destinations finales, qui comprennent les marges de données, les applications, les fichiers, les bassins de données, les bancs de travail de science des données, les solutions basées sur l‘IA et les écosystèmes d‘API.

Construire une architecture de données moderne et robuste

Une architecture de données d‘entreprise moderne et robuste garantit que les entreprises disposent de l‘accessibilité, de la vitesse, de la flexibilité et de la fiabilité nécessaires pour optimiser chaque source de données et l‘utiliser pour prendre de meilleures décisions commerciales. SnapLogic fournit une intégration de données par le biais de son intégration intelligente plateforme en tant que service, aidant les entreprises à construire des architectures de données modernes pour répondre à leurs besoins futurs en matière de données.