Hadoop Data Lake - Spiegazione e panoramica

Che cos'è un data lake Hadoop?

Hadoop è un elemento importante dell'architettura utilizzata per costruire i data lake. Un data lake Hadoop è stato costruito su una piattaforma composta da cluster Hadoop. Hadoop è particolarmente popolare nell'architettura dei data lake perché è open source (come parte del progetto Apache Software Foundation). Ciò significa che può ridurre significativamente i costi di costruzione di data store su larga scala.

I dati e le informazioni memorizzati sui cluster Hadoop sono non relazionali e possono includere oggetti JSON, file di log, immagini e post web. Questo tipo di architettura non è stata costruita per l'elaborazione delle transazioni, ma è orientata al supporto di applicazioni analitiche. 

Nei data lake, i dati sono generalmente archiviati in un Hadoop Distributed File System (HDFS). Questo sistema consente l'elaborazione simultanea dei dati. Infatti, quando vengono ingeriti, i dati vengono suddivisi in segmenti e distribuiti attraverso i diversi nodi di un cluster. I data lake Hadoop possono contenere anche una varietà di dati strutturati, non strutturati e semi-strutturati. Questo può renderli più adatti a determinate operazioni rispetto a data warehouse più strettamente focalizzati.

Oltre ad Hadoop, esistono altri esempi di data lake. Tra questi, Azure Data Lake Store o Amazon S3 cloud object store. Per quanto riguarda i data lake, non esiste una definizione di data lake che derivi esclusivamente dalla tecnologia utilizzata. Pertanto, in futuro, è possibile che Hadoop non venga utilizzato nell'architettura dei data lake.

Un'altra distinzione importante quando si parla di architettura dei big data è quella tra data warehouse e data lake. Questo si riferisce alla quantità di dati conservati e alla loro strutturazione. Un data lake è un archivio di grandi dimensioni, fino a petabyte, che contiene dati grezzi sotto forma di blob o file. Un data warehouse, invece, è molto più mirato. I dati in esso contenuti sono solitamente elaborati e raffinati, il che li rende più facili e veloci da usare quando si analizzano i dati per ottenere business intelligence.