Apache Hive - Définition et vue d'ensemble

Qu'est-ce que Apache Hive ?

Apache Hive est un logiciel libre conçu pour l'entreposage de données. Il permet d'analyser et d'interroger de grandes quantités de données. Il a été créé pour être utilisé avec Hadoop et est devenu l'une des méthodes les plus populaires pour les requêtes SQL sur des pétaoctets de données. Les analystes de données peuvent ensuite interroger et analyser les données par le biais de Hive afin de transformer ces données en informations exploitables pour l'entreprise. Apache Hive est optimisé pour effectuer des tâches standard d'entreposage de données. Il s'agit notamment des tâches d'extraction/transformation/chargement (ETL) et de création de rapports.

Apache Hive crée une interface de type SQL, qui utilise HiveQL pour interroger les données stockées dans Hadoop. Les trois principales fonctions de Hive sont la synthèse, l'interrogation et l'analyse des données. En ce qui concerne les entrepôts de données, il aide à lire, écrire et gérer de grands ensembles de données. Ceux-ci sont généralement stockés de manière distribuée.

Hive a d'abord été créé en raison des difficultés rencontrées par les utilisateurs dans l'utilisation de la programmation Java pour interroger les données. Apache Hive a pour objectif de faciliter le développement des requêtes. Cela faciliterait l'utilisation du système Hadoop d'Apache, en particulier pour les organisations qui utilisent des données non structurées. Un autre avantage est que les temps de réponse avec Hive sont réduits. Cela est dû à l'utilisation de l'indexation et des données compressées. Le stockage des métadonnées dans un système de gestion de base de données relationnelle permet également de réduire le temps d'interrogation. Des versions récentes de Hive ont fait état d'un traitement analytique de 100 millions de lignes par seconde, par nœud.

La flexibilité de Hive est l'une de ses caractéristiques les plus attrayantes. Cela signifie qu'il n'y a pas de format fixe à utiliser pour le stockage des données. Au contraire, de nombreux connecteurs pour différents formats sont intégrés au logiciel. Il peut ainsi mettre en place une structure uniforme sur des données arrivant dans des formats variés.

Hive comporte un certain nombre de modules de composants qui exécutent différentes tâches. Il s'agit notamment du pilote, du compilateur et de l'exécuteur. Ces modules définissent les différentes étapes de l'exécution d'une tâche. Un autre module est le métastore, qui contient des métadonnées afin d'accélérer les requêtes.


Autres contenus susceptibles de vous intéresser