Il viaggio dei dati: Dal data warehouse ai data mart ai data lake

Da Mark Gibbs

Pubblicato a settembre 19, 2018

3 lettura minima

Poiché i dati sono sempre più riconosciuti come la valuta aziendale dell'era digitale, si pongono nuove domande su come questi dati debbano essere raccolti, gestiti e sfruttati nell'ambito di un'architettura dei dati aziendale complessiva.

Magazzini dati: Modello di scelta

Negli ultimi decenni, i data warehouse sono stati il modello preferito dalle imprese per estrarre dati strutturati da sistemi operativi come le piattaforme di pianificazione delle risorse aziendali (ERP) e di gestione della supply chain (SCM). Le imprese hanno consolidato e centralizzato i dati e hanno utilizzato strumenti di business intelligence e di supporto alle decisioni per effettuare analisi e reportistica approfondita e storica. Mentre il data warehouse funge da repository centralizzato e multifunzionale sotto la tutela dell'IT, i data mart sono emersi come sottoinsieme della tecnologia costruita per soddisfare le esigenze specifiche di reporting di un particolare reparto o funzione aziendale. I data warehouse sono costruiti con un approccio dall'alto verso il basso e memorizzano dati dettagliati e strutturati, mentre i data mart di solito nascono dal basso verso l'alto con lo scopo di ospitare una forma sintetica di dati selezionati.

Entrambi gli approcci sono coesistiti e hanno avuto successo per anni. Ma l'avvento di dati più grandi e più variegati - comprese le informazioni non strutturate come i weblog, le immagini, i video, i messaggi diretti e il flusso quasi infinito di dati in tempo reale dell'Internet of Things (IoT) - pone sfide che le architetture tradizionali di data warehouse/data mart semplicemente non sono in grado di gestire. Inoltre, la visione centralizzata di un unico repository di data warehouse non si è mai concretizzata del tutto, lasciando la maggior parte delle organizzazioni con una miriade di silos di dati, che possono ostacolare un processo decisionale efficace.

Il passaggio ai data lake

Una ricerca condotta da Vanson Bourne ha rilevato che i dati scollegati, causati da sistemi legacy e architetture di dati obsolete, stanno costando molto alle aziende. Secondo l'indagine condotta tra i leader IT e gli utenti aziendali, negli Stati Uniti e nel Regno Unito le organizzazioni perdono 140 miliardi di dollari all'anno in termini di perdite di tempo e risorse, di mancata duplicazione degli sforzi e di opportunità mancate a causa della disconnessione dei dati. Più della metà degli intervistati (56%) ha dichiarato che i silos di dati rappresentano un ostacolo al raggiungimento degli obiettivi aziendali.

Il data lake è l'ultima versione di una piattaforma centralizzata per la raccolta e l'elaborazione dei dati, questa volta con un'architettura piatta e priva di schemi, tipicamente basata su Hadoop e ottimizzata per l'elaborazione di dati generici. Come un data warehouse, il data lake può memorizzare diverse fonti di dati, ma al contrario i dati non devono essere puliti e trasformati durante il processo di acquisizione. La mancanza di una struttura e di uno schema predefinito conferisce al data lake una maggiore versatilità, rendendolo adatto alla scoperta dei dati e a una più ampia gamma di casi d'uso analitici. Inoltre, un data lake è in grado di ingerire ed elaborare i dati in tempo reale, il che è più in linea con l'immediatezza delle applicazioni aziendali digitali di oggi.

Complementare, non sostitutivo

Sebbene alcuni considerino il data lake come un sostituto del data warehouse, molti esperti di gestione dei dati non la pensano così. Piuttosto, considerano le due tecnologie come complementari, ognuna delle quali serve il proprio caso d'uso. Per esempio, il data warehouse è adatto agli utenti aziendali che devono lavorare con informazioni pre-aggregate e pre-integrate per applicazioni di analisi storica. I data lake, invece, sono adatti ai data scientist e ad altri utenti che vogliono lavorare con dati grezzi, magari per costruire modelli basati sull'apprendimento automatico, e hanno bisogno di scoperta, esplorazione e test rapidi, processi legati alla nuova generazione di analisi prescrittiva e predittiva.

Quando si pianifica un data lake, una cosa è chiara: le organizzazioni devono tracciare una nuova architettura e investire in strumenti che consentano l'integrazione e supportino l'elaborazione end-to-end, compresa l'acquisizione, la trasformazione e l'accesso ai dati. Con un'infrastruttura di questo tipo, le aziende possono procedere con le applicazioni di nuova generazione basate sui dati, che saranno il motore del successo del business digitale.