Rete di dati: La centralizzazione o la decentralizzazione sono giuste per la vostra azienda?

Michael Nixon immagine frontale
11 minuti di lettura

Secondo Accenture, "il 90% dei dati del mondo" è stato creato negli ultimi 10 anni. La società di consulenza prevede inoltre che entro il 2025 saranno creati circa 175 zettabyte (o 175 trilioni di gigabyte) di dati.

Nonostante la quantità enorme di dati raccolti, la scarsa qualità dei dati continua a costare alle aziende una media di 12,9 milioni di dollari ogni anno. Come possono quindi le aziende mantenere la qualità dei dati pur accumulando sempre più informazioni?

La risposta dipende da come si sceglie di gestire i dati. Negli ultimi anni, le aziende hanno assistito a una tendenza evolutiva nell'architettura dei dati, passando dalla centralizzazione dei dati, come nel data warehouse e nel data lake, alla decentralizzazione dei dati, come nel data mesh. Per le aziende che vogliono sfruttare al meglio la business intelligence, l'approccio alla gestione dei dati ha un impatto significativo sulla capacità di prendere decisioni affidabili basate sui dati.

In questo articolo esploriamo il potenziale della centralizzazione e della decentralizzazione dei dati per migliorare la scopribilità, l'accessibilità, l'interoperabilità e la sicurezza dei dati.

Panoramica della decentralizzazione dei dati

La decentralizzazione dei dati si riferisce a un approccio di gestione dei dati in cui l'archiviazione, la pulizia, l'ottimizzazione, l'output e il consumo dei dati sono distribuiti senza la necessità di un repository centrale. La decentralizzazione dei dati distribuisce i prodotti di dati tra i diversi dipartimenti organizzativi per ridurre la complessità e le sfide legate alla gestione di grandi quantità di dati, alla modifica degli schemi, ai tempi di inattività, agli aggiornamenti e alla compatibilità dei dati all'indietro.

La rete di dati è un esempio di struttura di gestione dei dati che adotta l'approccio della centralizzazione dei dati.

Che cos'è una rete di dati?

Una rete di dati è un framework di gestione dei dati aziendali che definisce le modalità di gestione dei dati specifici del dominio aziendale in modo da consentire ai domini aziendali di possedere e gestire i propri dati. Consente ai produttori e ai consumatori di dati specifici del dominio di raccogliere, archiviare, analizzare e gestire pipeline di dati senza la necessità di un team di gestione dei dati intermedio.

La rete di dati ha le sue origini nell'informatica distribuita, dove i componenti software sono condivisi tra più computer che funzionano insieme come un sistema. Nella rete di dati, la proprietà dei dati è distribuita tra diversi domini aziendali e ogni dominio è responsabile della creazione dei propri prodotti di dati. L'idea della rete di dati è stata definita per la prima volta da Zhamak Dehghani, consulente tecnologico di Thoughtworks, nel 2019.

La rete di dati consente inoltre una più facile contestualizzazione dei dati per generare approfondimenti, facilitando al contempo una maggiore collaborazione da parte dei proprietari del dominio per creare soluzioni su misura per le specifiche esigenze aziendali.

L'architettura della rete di dati prevede che le informazioni siano archiviate da più fonti e che un servizio di formazione dei dati renda disponibili i prodotti dei dati come tabelle autorizzate. Il proprietario dei dati può anche creare ed esporre API che altri utenti possono utilizzare. La rete di dati dispone anche di un catalogo di dati che memorizza metadati, come nomi di tabelle, colonne e tag definiti dall'utente.

I vantaggi principali di una rete di dati includono:

Decentramento della proprietà dei dati e delle operazioni sui dati per accelerare l'agilità dei domini aziendali nel prendere decisioni rilevanti.

  • Fornire ai team di dominio l'indipendenza di scegliere lo stack tecnologico dei dati che meglio soddisfa le loro esigenze.
  • Garantire la trasparenza tra i team interfunzionali riducendo la probabilità di avere team di dati isolati.
  • Facilitare la sovranità e la residenza dei dati per garantire l'allineamento con le normative sulla governance dei dati.

Panoramica della centralizzazione dei dati

La centralizzazione dei dati è una funzione della tradizionale infrastruttura di dati monolitica che gestisce l'archiviazione, la pulizia, l'ottimizzazione, l'output e il consumo dei dati in una posizione centrale. Se da un lato la centralizzazione dei dati garantisce la gestione dei dati da una fonte centrale, dall'altro è progettata per rendere i dati accessibili da molti punti diversi.

La centralizzazione dei dati riduce al minimo i silos informativi, consente una maggiore collaborazione e facilita la visione e la previsione dell'impatto potenziale delle tendenze emergenti o dei cambiamenti proposti nei diversi reparti. Una visione centralizzata dei dati aiuta anche ad allineare la strategia dei dati con la strategia aziendale, fornendo una visione a 360 gradi di tendenze, intuizioni e previsioni, in modo che tutti i membri dell'organizzazione possano lavorare nella stessa direzione.

Il data warehouse e il data lake sono esempi di sistemi di gestione dei dati che adottano l'approccio della centralizzazione dei dati.

Che cos'è un Data Warehouse?

Un data warehouse è un sistema di gestione dei dati aziendali di prima generazione che raccoglie e gestisce dati proprietari da diverse fonti all'interno di una piattaforma centralizzata per sintetizzare la business intelligence.

L'architettura di un data warehouse si articola su più livelli: il livello superiore è costituito da un client front-end in cui è possibile accedere a strumenti di analisi, data mining e reporting. Nel livello intermedio si trova il motore di analisi e nel livello inferiore il server di database.

Lo schema del data warehouse è schema-on-write. Può prevedere più database e ogni database è organizzato in un formato gerarchico di file e cartelle.

I vantaggi principali di un data warehouse sono

  • Consolidamento dei dati provenienti da più fonti
  • Consentire l'analisi dei dati storici
  • Garantire la coerenza del formato, della qualità e dell'accuratezza dei dati.
  • Facilitare la separazione dei database transazionali da quelli analitici per migliorare le prestazioni.

Tuttavia, la creazione di prodotti di dati dal data warehouse tende a diventare complicata, lunga e potenzialmente costosa, perché di solito si sottovalutano le risorse necessarie per il caricamento dei dati.

Che cos'è un Data Lake?

Per data lake si intende un archivio centralizzato di dati grezzi e non elaborati provenienti da varie fonti, senza un piano definito su come e quando verranno utilizzati. È un sistema di gestione dei dati aziendali di seconda generazione incentrato sulla gestione dei big data.

L'architettura di un data lake gestisce le informazioni in cloud con l'uso di una console data lake e di una CLI data lake nel front-end. Nel back end, sono disponibili le API RESTFUL del data lake, le funzioni lambda, le directory, il catalogo dei dati, un OpenSearchServer e altro ancora.

Il data lake consente di gestire più tipi di dati, compresi quelli relazionali e non relazionali, in un formato granulare grezzo all'interno di un'architettura piatta. Poiché i dati sono archiviati allo stato grezzo, lo schema del data lake è schema-on-read e viene creato al momento dell'analisi dei dati, in modo da ottenere più rapidamente i risultati delle query.

I principali vantaggi del data lake includono:

  • Facilitare lo sviluppo più rapido di modelli di apprendimento automatico
  • Promuovere una movimentazione più rapida dei dati importando grandi quantità di dati in tempo reale.
  • Migliorare il crawling, la catalogazione, l'indicizzazione e la sicurezza dei dati.
  • Dare ai team di R&S la possibilità di testare le ipotesi, perfezionare i presupposti e monitorare i risultati.

Mentre gli analisti di business possono utilizzare il data warehouse, il data lake richiede l'esperienza di data scientist e sviluppatori di dati con strumenti specializzati per navigare in set di dati complessi, perché la scarsa integrità dei dati e le lacune nella sicurezza da parte di non esperti potrebbero trasformare il data lake in una palude di dati morti.

Quando è giusto un approccio centralizzato alla gestione dei dati?

Le soluzioni centralizzate per i dati, come i data lake e i data warehouse, sono utili in alcuni casi:

  • Se la vostra azienda è solo agli inizi con la gestione dei dati e avete pochi domini aziendali o un set di dati minimo. Questo è particolarmente importante se avete team interfunzionali in cui le persone indossano più cappelli. È meglio avere un team di dati centralizzato piuttosto che dover creare un team di dati per supportare ogni funzione lavorativa.
  • Se i big data sono fondamentali per le operazioni aziendali, è necessario archiviare, preparare e analizzare un'enorme quantità di dati. La centralizzazione dei dati raccoglie tutti i dati aziendali in un unico luogo, in modo che sia più facile per il team dati ripulire e preparare i dati. La centralizzazione dei dati consente inoltre al team di gestire un processo di conformità unificato per mantenere l'integrità dei dati.
  • Se il vostro budget per la gestione dei dati è basso e avete bisogno di archiviazione a prezzi accessibili per quantità elevate di dati grezzi, strutturati o non strutturati. I sistemi di gestione centralizzata dei dati aiutano a ridurre i costi di archiviazione e di calcolo perché è possibile gestire i dati in un unico server o utilizzare una soluzione cloud in cui il fornitore si fa carico dei costi generali.

Quando una rete di dati è un approccio migliore alla gestione dei dati?

Una rete di dati rappresenta un passaggio alla gestione decentralizzata dei dati a livello operativo e tecnologico. Se avete bisogno di maggiore efficienza nello sviluppo di prodotti di dati nella vostra organizzazione, una rete di dati è un passo nella giusta direzione verso l'aumento dell'efficienza, la riduzione dei costi operativi e la sintesi di intuizioni aziendali approfondite.

Si può anche prendere in considerazione l'utilizzo di una rete di dati se:

  • I vostri team devono raccogliere dati da fonti eterogenee e disparate per elaborarli immediatamente. Il data mesh consente ai reparti di accedere facilmente e localmente alle informazioni di cui hanno bisogno.
  • I vostri team hanno bisogno di accedere agli approfondimenti o ai report in un modo che non richieda di mettere in coda le richieste di dati a un team IT o di dati centralizzato.

È necessario combinare e analizzare diversi tipi di dati strutturati e non strutturati. Il fatto che la rete di dati gestisca i dati in gruppi specifici per il dominio fornisce una migliore contestualizzazione nei prodotti di dati creati dai vostri team.

Un Data Warehouse, un Data Lake o un Data Mesh sono adatti alla vostra azienda? Dipende

L'architettura di gestione dei dati che sceglierete dipende dalle vostre esigenze specifiche e dai vostri piani per la gestione dei dati in futuro.

Le esigenze di gestione dei dati e le risorse disponibili determineranno la scelta di un data warehouse, di un data lake o di un data mesh. Tuttavia, l'importante è assicurarsi che la piattaforma dati non diventi una discarica di dati. Dovrebbe piuttosto essere un sistema ottimizzato che permetta di sintetizzare in modo efficiente la business intelligence.

Le prossime tappe:

Consultate questo whitepaper su come avviare il vostro data warehouse cloud .

Per saperne di più su come SnapLogic sta portando il futuro del data warehouse nel presente.

Consultate il nostro whitepaper su come creare un data lake aziendale.

Per saperne di più sul ruolo di SnapLogic nel data lake aziendale.

Leggete come implementare l'automazione aziendale e integrare un data lake o un datawarehouse.

Michael Nixon immagine frontale
Vicepresidente del marketing dei dati di Cloud presso SnapLogic
Argomenti: Rete di dati
Rete di dati: La centralizzazione o la decentralizzazione è la scelta giusta per la vostra azienda?

Stiamo assumendo!

Scoprite la vostra prossima grande opportunità di carriera.