Data Mesh - Definizione e panoramica

Che cos'è la rete di dati?

Data mesh è un framework di gestione dei dati aziendali che definisce come gestire i dati specifici del dominio aziendale in modo da consentire ai domini aziendali di possedere e gestire i propri dati. Consente ai produttori e ai consumatori di dati specifici del dominio di raccogliere, archiviare, analizzare e gestire pipeline di dati senza la necessità di un team di gestione dei dati intermedio.

La rete di dati trae origine dall'informatica distribuita, in cui i componenti software sono condivisi tra più computer che funzionano insieme come un sistema. Con il data mesh, la proprietà dei dati è distribuita tra diversi domini aziendali e ogni dominio è responsabile della creazione dei propri prodotti di dati. La rete di dati consente anche una più facile contestualizzazione dei dati per generare approfondimenti, facilitando al contempo una maggiore collaborazione tra i proprietari dei domini per creare soluzioni su misura per le specifiche esigenze aziendali.

SnapLogic spiega - Che cos'è il data mesh?

Come viene definita la maglia dei dati?

Data mesh è un approccio progettuale di architettura di piattaforma dati per l'implementazione di un'architettura decentralizzata e distribuita di analisi e condivisione dei dati.

"Larete di dati è un approccio sociotecnico decentralizzato per condividere, accedere e gestire i dati analitici in ambienti complessi e di grandi dimensioni - all'interno e tra gli ambienti".

Da "Data Mesh - Fornire valore guidato dai dati su scala" di Zhamak Dehghani, 2022.

Come funziona il Data Mesh? 

L'architettura della rete di dati prevede che le informazioni siano archiviate da più fonti e che un servizio di formazione dei dati renda disponibili i prodotti dei dati come tabelle autorizzate. Il proprietario dei dati può anche creare ed esporre API che altri utenti possono utilizzare. Data mesh dispone anche di un catalogo di dati che memorizza metadati, come nomi di tabelle, colonne e tag definiti dall'utente.

Quali sono i principi della rete di dati?

I pilastri fondamentali della rete di dati comprendono quattro principi: decentralizzazione attraverso la proprietà del dominio, dati come prodotto, infrastruttura di dati self-service e governance computazionale federata. I quattro principi servono a descrivere la rete di dati e sono importanti per produrre il valore dei dati e l'agilità di un'architettura moderna che le aziende cercano di ottenere con la loro crescita.

Principio della rete di dati #1: proprietà del dominio

Questo descrive il decentramento della proprietà dei dati, cioè la responsabilità dei dati, ai domini aziendali più vicini ad essi. In sostanza, sono i domini aziendali a possedere i loro dati piuttosto che una funzione IT centralizzata. Tuttavia, l'IT può svolgere un ruolo nell'aiutare i domini aziendali a sfruttare ed estrarre la potenza dei propri dati. La proprietà del dominio è fondamentale per le aziende per realizzare la scala ed evitare i colli di bottiglia attraverso una struttura centralizzata del flusso di dati.

Principio della rete di dati #2: i dati come prodotto

Con una struttura decentralizzata di proprietà del dominio (o orientata al dominio), i dati vengono condivisi con altri utenti e consumatori interessati ai dati. Esempi di dati come prodotto possono essere un set di dati per l'analisi o dati per un servizio fornito. I proprietari dei dati possono condividerli come meglio credono per produrre i risultati aziendali desiderati. I dati come prodotto devono avere le caratteristiche minime di scopribilità, indirizzabilità, comprensibilità, affidabilità, veridicità e sicurezza. 

Principio della rete di dati n. 3: piattaforma di dati self-service

Affinché i domini aziendali realizzino i dati come un prodotto, da condividere con gli altri, è necessario che i domini aziendali abbiano la possibilità di farlo. L'obiettivo del self-service è quello di eliminare gli attriti dal percorso end-to-end dei dati, dall'origine al consumo. I domini aziendali o i singoli proprietari dei dati sono quindi in grado di sviluppare e migliorare i dati e di definire i parametri per i quali i dati vengono condivisi. Le funzionalità dell'infrastruttura della piattaforma e le politiche di governance automatizzate rendono possibile il self-service.

Principio della rete di dati #4: governance computazionale federata

Un principio ampio e comprensivo che definisce il modello operativo di governance dei dati basato su processi decisionali federati, responsabilità, sicurezza, politiche legali e di conformità e altro ancora. Le motivazioni di questo principio includono il desiderio di ottenere un valore di ordine superiore dai dati aggregati e di contrastare le potenziali conseguenze indesiderate di un'infrastruttura decentralizzata e orientata al dominio.

Quali sono i vantaggi del data mesh?

  • Decentramento della proprietà dei dati e delle operazioni sui dati per accelerare l'agilità dei domini aziendali nel prendere decisioni rilevanti.
  • Fornire ai team di dominio l'indipendenza di scegliere lo stack tecnologico dei dati che meglio soddisfa le loro esigenze.
  • Garantire la trasparenza tra i team interfunzionali riducendo la probabilità di avere team di dati isolati.
  • Facilitare la sovranità e la residenza dei dati per garantire l'allineamento con le normative sulla governance dei dati.

Domande frequenti sulla rete di dati

Nel contesto della rete di dati, garantire la qualità, la coerenza e la standardizzazione dei dati tra domini decentralizzati implica l'implementazione di solide pratiche di governance dei dati. Ciò include la definizione di chiari standard di metadati, processi di validazione dei dati e sforzi collaborativi tra i proprietari dei domini per stabilire e rispettare metriche comuni di qualità dei dati. Anche se la proprietà dei dati è distribuita, è possibile utilizzare strutture collaborative e strumenti automatizzati per applicare pratiche standardizzate sui dati, garantendo che i dati rimangano accurati, affidabili e allineati agli standard organizzativi.

2. Quali strumenti o tecnologie specifiche completano l'implementazione di un'architettura data mesh?

L'implementazione pratica di un'architettura a rete di dati spesso comporta una combinazione di vari strumenti e tecnologie per supportare diversi principi. Per la proprietà del dominio, sono fondamentali gli strumenti che consentono una catalogazione efficiente dei dati, la gestione dei metadati e il controllo degli accessi. Le piattaforme di dati self-service possono sfruttare strumenti di integrazione dei dati, servizi di cloud e soluzioni di automazione per potenziare i domini aziendali. La governance computazionale federata può comportare l'uso di strumenti di gestione delle policy, blockchain per l'accountability e framework per l'aderenza alle leggi e alla conformità. Gli strumenti specifici possono variare in base ai requisiti organizzativi, agli stack tecnologici e alla natura dei prodotti di dati all'interno di ciascun dominio.

3. Ci sono sfide notevoli o potenziali svantaggi associati all'adozione di un approccio a rete di dati?

Nel passaggio a un modello decentralizzato possono sorgere potenziali problemi. Gestire i cambiamenti culturali, garantire l'adozione coerente degli standard dei dati tra i vari domini e affrontare i potenziali problemi di sicurezza dei dati sono sfide cruciali. Inoltre, le organizzazioni possono trovarsi di fronte a difficoltà nell'allineamento dei processi decisionali federati, nella gestione dei requisiti legali e di conformità e nella creazione di canali di comunicazione efficaci tra i team di dominio decentralizzati. È essenziale che le organizzazioni che prendono in considerazione la rete di dati conducano valutazioni approfondite, investano nella gestione del cambiamento e prevedano e affrontino le sfide durante l'intero processo di implementazione.