Home ❯ Blog ❯ Integrare il divario di conoscenze dei big data

Integrare il divario di conoscenze dei big data

Da Bill Creekbaum

Pubblicato il 7 luglio 2017

5 minuti di lettura

Di Bill Creekbaum

Che siate analisti, data scientist, CxO o semplici utenti aziendali, l'accesso a un maggior numero di dati rappresenta un'opportunità per prendere decisioni aziendali migliori, identificare opportunità nuove e innovative, rispondere a minacce difficili da identificare... le opportunità sono numerose.

Sempre più dati - dall'IoT, dai log delle macchine, dallo streaming dei social media, dalle applicazioni cloud-native e altro ancora - arrivano con strutture diverse e in volumi massicci ad alta velocità. Le piattaforme di analisi e integrazione tradizionali non sono mai state progettate per gestire questo tipo di carichi di lavoro.

Questi dati sono spesso associati ai grandi dati e tendono a essere accessibili a un pubblico molto ristretto con una grande quantità di competenze ed esperienze tecniche (ad esempio, i data scientist), limitando l'utilità commerciale di avere più dati. Questo crea un gap di dati e impedisce a una popolazione molto più ampia di utenti e analisti di business di beneficiare dei vantaggi dei big data. L'obiettivo del nostro settore dovrebbe essere quello di aiutare gli utenti aziendali e gli analisti a rendere operativi gli insight dei big data. Infatti, Forbes ha dichiarato che il 2017 sarà l'anno in cui i big data diventeranno mainstream.

Sono due gli elementi critici necessari per colmare questo gap di insight dei big data:

Una piattaforma dati scalabile: Gestisce i big data ed è compatibile con le piattaforme analitiche "tradizionali".

Una piattaforma di integrazione: Acquisisce grandi volumi di dati diversificati ad alta velocità senza dipendere dall'IT.

Per affrontare il primo elemento, Amazon ha rilasciato Amazon Redshift Spectrum come parte della crescente famiglia di servizi AWS per i big data. Ottimizzato per l'archiviazione massiva dei dati (ad esempio, petabyte ed exabyte) che sfrutta S3 e fornito con le prestazioni scalabili di Amazon Redshift, AWS sta rendendo possibili gli scenari sopra descritti da un punto di vista operativo, di accessibilità ed economico:

Operativo: Amazon Redshift Spectrum consente di interagire con volumi di dati e diversità non possibili con la tecnologia OLAP tradizionale.

Accessibilità: L'interfaccia SQL consente agli utenti aziendali e agli analisti di utilizzare strumenti analitici e competenze tradizionali per sfruttare questi set di dati estremi.

Economico: Amazon Redshift Spectrum sposta la maggior parte dei costi dei big data sul servizio S3, che è molto più economico dell'archiviazione dell'intero set di dati in Redshift.

È evidente che Amazon ha fornito una piattaforma in grado di democratizzare la fornitura di volumi estremamente elevati di dati aziendali diversi agli utenti e agli analisti aziendali, consentendo loro di utilizzare gli strumenti attualmente in uso, come Tableau, PowerBI, QuickSight, Looker e altre applicazioni SQL.

Tuttavia, a meno che i grandi volumi di dati diversificati e ad alta velocità non possano essere acquisiti, caricati su S3 e resi disponibili tramite Redshift Spectrum, nessuno dei vantaggi di cui sopra sarà realizzato e il divario di conoscenze sui big data rimarrà.

Le sfide principali dell'acquisizione e dell'integrazione di grandi volumi di dati diversi e ad alta velocità:

On-prem in un mondo Cloud-Native: Molte piattaforme di integrazione sono state progettate molto tempo fa per operare on-premises e per caricare i dati in un ambiente OLAP in batch. Sebbene alcune siano state aggiornate per operare in cloud, molte di esse non funzioneranno con i carichi di lavoro in streaming e crolleranno sotto l'elevato volume di dati diversi richiesto oggi.

L'integrazione è un "compito informatico": Le tipiche piattaforme di integrazione sono destinate a organizzazioni IT o integratori di sistemi. Questo non solo limita fortemente chi può eseguire il lavoro di integrazione, ma probabilmente costringe l'integrazione a una lunga coda di progetti, causando un lungo ritardo nella risposta a domande aziendali critiche.

Per colmare il secondo elemento, gli utenti e gli analisti devono essere in grado di acquisire i "big data" in modo da poter rispondere tempestivamente alle domande aziendali. Se l'acquisizione dei dati richiede un progetto IT lungo e complesso, l'opportunità di business potrebbe andare persa.

Per colmare il divario di conoscenze dei big data per gli utenti e gli analisti aziendali, la piattaforma di integrazione deve:

Gestire grandi volumi di dati diversi e ad alta velocità
Focus sullo sviluppo del flusso di integrazione (non sullo sviluppo di codice complesso)
Rispetto degli standard e dell'infrastruttura IT

Con l'approccio all'integrazione di cui sopra, il vantaggio pratico è che coloro che si pongono domande di business e cercano approfondimenti grazie a un maggior numero di dati sono in grado di sfruttare le potenti capacità di Amazon Redshift Spectrum e di rispondere alle opportunità di business quando sono ancora importanti.

Redshift Spectrum di Amazon e SnapLogic Enterprise Integration Cloud rappresentano una potente combinazione per colmare il divario dei big data per gli utenti e gli analisti aziendali. Nei prossimi post del blog, esamineremo casi d'uso reali e scopriremo come trasformare questi concetti in realtà.

Se siete interessati a scoprire come SnapLogic consente agli utenti del magazzino cloud di migliorare fino a 10 volte la velocità e la facilità di integrazione dei dati per le implementazioni Redshift, consultate il white paper "Igniting discovery: How built-for-the-cloud data integration kicks Amazon Redshift into high gear".

Bill Creekbaum è direttore senior della gestione prodotti di SnapLogic. Seguitelo su Twitter @wcreekba.