Apache Hive est un logiciel libre conçu pour l‘entreposage de données. Il permet d‘analyser et d‘interroger de grandes quantités de données. Il a été créé pour être utilisé avec Hadoop et est devenu l‘une des méthodes les plus populaires pour les requêtes SQL sur des pétaoctets de données. Les analystes de données peuvent ensuite interroger et analyser les données par le biais de Hive afin de transformer ces données en informations exploitables pour l‘entreprise. Apache Hive est optimisé pour effectuer des tâches standard d‘entreposage de données. Il s‘agit notamment des tâches d‘extraction/transformation/chargement (ETL) et de création de rapports.

Apache Hive crée une interface de type SQL, qui utilise HiveQL pour interroger les données stockées dans Hadoop. Les trois principales fonctions de Hive sont la synthèse, l‘interrogation et l‘analyse des données. En ce qui concerne les entrepôts de données, il aide à lire, écrire et gérer de grands ensembles de données. Ceux-ci sont généralement stockés de manière distribuée.

Hive a d‘abord été créé en raison des difficultés rencontrées par les utilisateurs dans l‘utilisation de la programmation Java pour interroger les données. Apache Hive a pour objectif de faciliter le développement des requêtes. Cela faciliterait l‘utilisation du système Hadoop d‘Apache, en particulier pour les organisations qui utilisent des données non structurées. Un autre avantage est que les temps de réponse avec Hive sont réduits. Cela est dû à l‘utilisation de l‘indexation et des données compressées. Le stockage des métadonnées dans un système de gestion de base de données relationnelle permet également de réduire le temps d‘interrogation. Des versions récentes de Hive ont fait état d‘un traitement analytique de 100 millions de lignes par seconde, par nœud.

La flexibilité de Hive est l‘une de ses caractéristiques les plus attrayantes. Cela signifie qu‘il n‘y a pas de format fixe à utiliser pour le stockage des données. Au contraire, de nombreux connecteurs pour différents formats sont intégrés au logiciel. Il peut ainsi mettre en place une structure uniforme sur des données arrivant dans des formats variés.

Hive comporte un certain nombre de modules de composants qui exécutent différentes tâches. Il s‘agit notamment du pilote, du compilateur et de l‘exécuteur. Ces modules définissent les différentes étapes de l‘exécution d‘une tâche. Un autre module est le métastore, qui contient des métadonnées afin d‘accélérer les requêtes.

Qu‘est-ce que Apache Hive ?

Autres contenus susceptibles de vous intéresser

Des expériences en IA aux résultats commerciaux : réflexions issues du sommet Gartner sur l'innovation applicative et les solutions d'entreprise

Le moteur commercial pharmaceutique prêt pour l'IA : relier les données, accélérer l'analyse, susciter l'action

Intégrer les technologies modernes dans l'entreprise

La couche de contrôle qui manque à vos agents IA

L'université prête pour l'IA : les voies de la modernisation de l'enseignement supérieur

Elida Beauty met rapidement en place un cœur numérique autonome à grande échelle