L'architecture des Big Data sans définition

"Quand j'utilise un mot, dit Humpty Dumpty d'un ton plutôt méprisant, il signifie exactement ce que j'ai choisi de signifier, ni plus ni moins.

La question est de savoir, dit Alice, si l'on peut donner aux mots autant de sens différents.

- A travers le miroirLe monde des enfants, Lewis Caroll

Comme la plupart des mots à la mode, le terme "Big Data" a donné lieu à de nombreuses définitions qui se recoupent partiellement, a donné lieu à de nombreuses définitions qui se recoupent partiellement. (En fait, l'auteur en est venu à penser que, tout comme les troupeaux de vaches et les meurtres de corbeaux, les collections de définitions ont besoin de leur propre nom collectif. Il soumet respectueusement "opinion", comme dans "une opinion de définitions", comme le choix naturel). Ce billet n'a pas pour but d'ajouter une autre définition du Big Data. Il s'agit d'examiner les implications opérationnelles et architecturales de l'appellation "Big Data".

http://www.xkcd.com/1429/
Copyright XKCD.

Prenez donc la ou les définitions de votre choix et une poignée représentative de vos données, et réfléchissez à ce qui suit :

  1. Toutes mes données sont-elles vitales ? Serais-je contrarié si un petit pourcentage aléatoire s'éloignait et devenait des données non pertinentes ?
  2. Ai-je besoin des garanties traditionnelles offertes par les bases de données relationnelles ? (telles que l'ACID et la rigidité et la spécificité des connexions entre les données).
  3. Les données globales permettent-elles d'obtenir des informations qui ne peuvent être trouvées en analysant uniquement un sous-ensemble ?
  4. Mes données sont-elles non structurées ? Générées par des appareils IoT ? Générées par l'activité des utilisateurs dans les applications ou les services web ?

Notez l'absence de questions sur le volume, la vitesse ou la variété des ensembles de données. Il s'agit de considérations importantes, mais il est également utile de considérer les Big Data comme un paradigme dans lequel vous accepterez certains compromis que vous n'auriez pas acceptés traditionnellement ; autrement, considérez les Big Data comme un écosystème dans lequel certains modèles de solutions sont utilisés.

Imaginons par exemple que vous traitiez des transactions financières. Les réponses aux questions posées aux points (1) et (2) seraient "Oui", "Extrêmement" et "Oui". Cette partie de votre système doit probablement être une base de données relationnelle traditionnelle. Pourquoi ? Les architectures Big Data sont généralement tolérantes à la perte de données. Après tout, vous avez beaucoup de données.

Si cela semble absurde pour les transactions financières, il ne faut pas oublier que la plupart des technologies Big Data sont issues d'entreprises du "Web 2.0" qui tentaient de résoudre des problèmes auxquels elles étaient confrontées. MapReduce (et donc Hadoop) a été utilisé par Google pour indexer le web. Kafka a aidé LinkedIn à traiter les données de connexion. Dans les deux cas, les données perdues occasionnellement n'avait pas d'importance.

En revanche, si vous avez répondu par l'affirmative aux questions (3) et (4), vous disposez probablement de données qu'il est préférable de traiter à l'aide des technologies Big Data. Dans ce cas, vous avez tellement de données qu'aucun élément individuel n'est particulièrement important, mais l'agrégat - et la capacité d'analyser l'agrégat - l'est. Ce dont vous avez besoin, c'est d'un manière simple de travailler avec ces données.

La plate-forme d'intégration élastique SnapLogic gère les données de petite taille, les données de taille moyenne, les Big Data, les données cloud , données par lots ou en flux continu - en fait, elle traite les données, quels que soient les adjectifs que vous voulez leur appliquer. Vous n'avez pas à choisir une taille unique pour toutes vos données. L'avantage d'avoir un lac de données est que chaque partie de votre infrastructure peut utiliser la solution qui fonctionne le mieux pour son application, mais toutes les pièces peuvent être connectées ensemble de manière transparente. Nous pouvons travailler avec vous pour déployer une architecture globale adaptée à vos besoins d'aujourd'hui et capable de s'adapter aux besoins de demain.

Catégorie : Données
Sujets : Architecture des données Lac de données

Nous recrutons !

Découvrez votre prochaine grande opportunité de carrière.