Che cos'è la moderna integrazione dei dati
Vent'anni fa, l'integrazione dei dati consisteva nel trasformare e spostare i dati da fonti di dati on-premises, come le applicazioni aziendali, a data warehouse on-premises, per lo più in grandi lotti, attraverso sistemi di integrazione dei dati altamente configurati. Queste pipeline ETL (Extract, Transform, Load) erano solitamente programmate in orari "non lavorativi", in modo che i dati fossero disponibili per l'azienda il giorno successivo per l'analisi e il reporting.
Non è cambiato molto, nel senso che i dati devono ancora essere trasformati e spostati tra i sistemi per ottenere valore di business. Tuttavia, oggi c'è un numero esponenzialmente maggiore di fonti di dati (con nuove fonti di dati che vengono create in continuazione), volumi di dati quasi infiniti (generati da sensori IoT, dispositivi mobili e altre fonti disparate) e una domanda istantanea di dati (per alimentare i processi aziendali in tempo reale, alimentare gli algoritmi di apprendimento automatico e aggiornare continuamente i dati dei clienti). L'elaborazione in batch da sola non è in grado di tenere il passo con l'esigenza immediata di approfondimenti sui dati, evidenziando la necessità di dati e movimenti in tempo reale. Inoltre, le applicazioni e i data warehouse on-premises non sono in grado di scalare in modo efficiente ed efficace per far fronte alle fluttuazioni della domanda di dati, dando vita all'era dell'cloud computing e del data warehouse cloud .
La moderna integrazione dei dati comprende gli strumenti, le architetture e gli stili di integrazione dei dati necessari per elaborare in modo efficiente ed efficace i dati nell'attuale economia frenetica e guidata dai dati. In questo blog parlerò degli strumenti di integrazione dei dati di cui le organizzazioni data-driven, come la vostra, hanno bisogno per fornire il tipo di valore che guiderà il successo della vostra azienda. In particolare, mi concentrerò sulla necessità di uno strumento di ingestione rapida e sul modo in cui questa nuova aggiunta al moderno stack di integrazione dei dati consente a più utenti di fornire più valore all'organizzazione.
Integrazione dei dati nella Cloud
Cloud Data Warehouse
Un data warehousecloud è centrale per qualsiasi attività di integrazione dei dati, in quanto repository per la raccolta e l'analisi dei dati. Cloud data warehouse, come Snowflake, Redshift, Databricks e altri, sono in grado di ospitare dati di ogni tipo e dimensione, strutturati o non strutturati. La loro intrinseca elasticità li rende ideali per i set di dati estremamente grandi e in continua crescita. Un vantaggio esteso del data warehouse cloud espone le capacità dell'ELT, sfruttando la potenza di calcolo del data warehouse cloud per trasformare i dati in loco. Questo, a sua volta, è un fattore trainante della popolarità dello strumento di ingestione rapida.
Piattaforma di integrazione e gestione dei dati
La piattaforma di integrazione e gestione dei dati è stata al centro delle organizzazioni IT per decenni ed è essenziale per qualsiasi azienda che abbia bisogno di accedere ai propri dati. Queste piattaforme consentono agli utenti altamente qualificati e tecnici di collegare gli endpoint dei dati, di estrarre, trasformare e arricchire i dati e di gestire i processi e le pipeline per la movimentazione dei dati. Le piattaforme di integrazione e gestione dei dati possono gestire facilmente grandi insiemi di dati e sono quindi fondamentali per le iniziative di big data di qualsiasi organizzazione. Una moderna piattaforma di integrazione e gestione dei dati dovrebbe essere idealmente basata su cloud, fornire una connettività nativa a molte fonti di dati moderne e diffuse, sia on-premises che su cloud, e dovrebbe essere facilmente scalabile per eguagliare o superare le capacità prestazionali dei sistemi che connette.
Funzionalità di gestione delle API e dell'API
La gestione delle API consente di automatizzare la condivisione di dati basati su eventi tra le applicazioni, sia internamente che esternamente. Con una corretta gestione delle API, le organizzazioni possono ottimizzare la fornitura di dati in tempo reale per un'integrazione efficiente delle applicazioni e ottimizzare la condivisione dei dati per garantire che tutti i sistemi collegati dispongano dei dati più rilevanti e aggiornati per completezza e accuratezza. Un moderno strumento di gestione delle API deve essere conforme agli standard accettati dal settore per la progettazione delle API, fornire un portale per una facile individuazione delle API disponibili e gestire in modo sicuro l'accesso alle API, il controllo delle versioni e la consegna dei dati.
Strumento di ingestione rapida
Lo strumento di ingestione rapida è l'ultima aggiunta al moderno stack di integrazione dei dati e mira a fornire un ROI immediato per gli utenti tecnici e non. Progettati per garantire facilità d'uso e convenienza, questi strumenti consentono alle aziende di qualsiasi dimensione di sfruttare tutti i vantaggi di cloud attraverso un servizio completamente gestito che non richiede alcuno sviluppo o codifica. Nel moderno stack di integrazione dei dati, uno strumento di ingestione rapida deve fornire una semplice connettività alle fonti di dati più diffuse, un facile accesso ai data warehouse di cloud , opzioni di prezzo accessibili e una visibilità immediata dei volumi di dati.
Integrazione dei dati per le masse
Fino a non molto tempo fa, l'integrazione dei dati era riservata alle grandi organizzazioni che dovevano elaborare i dati aziendali provenienti da molte fonti diverse in una visione unificata. Persino i fornitori di soluzioni di integrazione dei dati si sono concentrati su queste organizzazioni di grandi dimensioni, commercializzando i loro prodotti come piattaforme di "Enterprise Data Integration". Tuttavia, il costo di queste soluzioni di integrazione dei dati e l'ampiezza e la profondità delle funzionalità fornite limitavano il ROI per le organizzazioni e le aziende più piccole, che non potevano sfruttare tutte le capacità della piattaforma o, più semplicemente, non potevano permettersela del tutto.
Oggi, tuttavia, ogni azienda, indipendentemente dalle dimensioni, deve essere in grado di gestire i dati per sopravvivere. Le organizzazioni moderne, grandi e piccole, sfruttano il sito cloud per ospitare in modo efficiente le applicazioni aziendali (come Workday, Salesforce, Marketo e persino Shopify, HubSpot e BambooHR) e hanno bisogno di metodi efficaci per estrarre la business intelligence che porterà alla crescita dell'azienda.
Lo strumento di ingestione rapida rende l'integrazione disponibile per le masse. Le grandi aziende possono integrare una piattaforma di integrazione dei dati molto più grande con una funzionalità self-service che consente a tutte le persone di ottenere più rapidamente informazioni sui dati per i leader aziendali. Per le organizzazioni più piccole, uno strumento di ingestione rapida rende possibile l'integrazione dei dati con una semplicità e una convenienza che si allineano meglio ai vantaggi di cloud. In entrambi i casi, gli strumenti di ingestione rapida forniscono valore, sbloccano il potenziale dei dati e rivoluzionano l'economia dell'integrazione dei dati.
Casi d'uso degli strumenti di integrazione dei dati
Replica dei dati
La replica dei dati è una copia unidirezionale dei dati dal luogo in cui vengono generati, come un sistema operativo di punti vendita o un sistema CRM, al luogo in cui possono essere analizzati per la pianificazione, le previsioni e gli approfondimenti.
Esistono diversi tipi di replica dei dati:
- Replica completa della tabella - Questo tipo di replica dei dati copia i dati da una tabella di origine a quella di destinazione nella loro interezza. In genere, in un approccio di replica completa delle tabelle, anche gli schemi tra questi database relazionali devono essere mantenuti sincronizzati. Questo metodo può richiedere molto tempo e una notevole larghezza di banda di rete.
- Replica incrementale - Talvolta denominata Change Data Capture, questo tipo di replica dei dati è tipicamente basata su chiavi o log. Identifica le modifiche nei sistemi di origine e le propaga solo alla destinazione.
Uno strumento di ingestione rapida è ideale per questo tipo di integrazione dei dati, perché la trasformazione dei dati durante il loro spostamento è minima o nulla. In questo caso, gli analisti aziendali possono accedere ai dati quando e dove ne hanno bisogno, senza che i reparti IT diventino un collo di bottiglia ogni volta che viene aggiunta una nuova fonte di dati. Questo non solo consente agli analisti di accedere a importanti set di dati in modo tempestivo, ma libera anche i reparti IT che possono concentrarsi su sforzi di integrazione molto più ampi per il successo a lungo termine dell'organizzazione.
Migrazione dei dati
La migrazione dei dati è il processo di spostamento dei dati da un datastore, come un data lake o un data warehouse, a un altro datastore di questo tipo. In genere, le migrazioni dei dati fanno parte di uno sforzo organizzativo più ampio per spostare i dati da fonti di dati on-premises (come Oracle, Teradata o SAP) a data store basati su cloud, come Snowflake, Redshift, Databricks e altri. Tuttavia, sempre più spesso i dati vengono migrati tra cloud data store, consentendo alle organizzazioni di sfruttare i risparmi sui costi tra piattaforme cloud concorrenti o addirittura di adottare una strategia multi-cloud .
Uno strumento di ingestione rapida è ideale per questo tipo di integrazione dei dati, perché la velocità è fondamentale. Non è necessario costruire, testare e distribuire complesse pipeline di dati ETL. È sufficiente selezionare dall'elenco dei connettori preconfigurati per le fonti di dati e i sistemi di destinazione, come i data warehouse di cloud , e lasciare che i dati fluiscano senza ostacoli. Inoltre, in quanto servizio gestito, il fornitore SaaS garantirà che il processo venga scalato in modo appropriato per ottenere prestazioni ottimali e garantire tempi di inattività minimi e massima disponibilità dei dati.
Analisi dei dati
Le organizzazioni analizzano i dati da decenni, sfruttando le pipeline di dati ETL per affrontare la qualità dei dati e la complessa codifica SQL per ottenere approfondimenti sui dati. Tuttavia, con l'aumento dei volumi di dati, cresce anche la richiesta di analisi più rapide. Gli analisti aziendali non possono più aspettare ore, né tantomeno giorni, per ottenere i dati di cui hanno bisogno per prendere decisioni critiche. Gli strumenti di ingestione rapida non solo consentono di spostare frequentemente e rapidamente i dati da fonti e applicazioni disparate ai data warehouse e ai data lake di cloud , ma la loro semplicità e facilità d'uso consentono a tutte le persone di un'organizzazione di accedere ai dati di cui hanno bisogno, quando e dove ne hanno bisogno.
Il valore dei moderni strumenti di integrazione dei dati
I moderni processi di integrazione dei dati non sono più definiti da una piattaforma "do-it-all" progettata per gli specialisti ETL più esperti. È emersa una nuova tendenza. Quella in cui il self-service consente ai proprietari dei dati, indipendentemente dalle capacità tecniche, di accedere ai dati di cui hanno bisogno, quando e dove ne hanno bisogno. Uno strumento di ingestione rapida dei dati:
- Consente il self-service per i proprietari di dati sia tecnici che non tecnici.
- Abbatte i silos di dati e offre un accesso più rapido ai dati per l'analisi.
- Semplifica la modernizzazione in cloud con pipeline di dati precostituite.
- Offre una soluzione conveniente per le organizzazioni di qualsiasi dimensione per guidare le attuali iniziative di integrazione.
Uno strumento di ingestione rapida dei dati è oggi fondamentale per il successo delle aziende e dovrebbe essere aggiunto alla moderna cassetta degli attrezzi per l'integrazione dei dati di ogni organizzazione.