Si può dire che i Big Data sono ormai un argomento talmente diffuso che c'è una band che porta il suo nome. Dopo il successo dell'IPO di Hortonworks di questa settimana, il Wall St. Journal ha pubblicato questo articolo: The Joys and Hype of Software Called Hadoop - Big Data Is Hot in Silicon Valley, and Hadoop Underpins Craze. Per avere un po' di contesto, un po' di storia e qualche spunto su ciò che verrà, mi sono seduto con Gaurav Dhillon, cofondatore e CEO di SnapLogic, per discutere di tutto ciò che riguarda i dati, le differenze e il ruolo dell'integrazione dei dati nell'era di social, mobile, analytics, cloud e Internet delle cose(SMACT).
Ecco il podcast:
Ecco la trascrizione di alcune parti fondamentali della discussione:
Cosa c'è di diverso ora? Perché alcuni di questi argomenti stanno diventando mainstream? Cosa è cambiato?
Gli statistici esistono da tempo, forse non quanto i matematici, ma poco dopo sono arrivati. Hanno utilizzato tecnologie tradizionali. Il fatto che qualcuno abbia uno strumento più affilato non lo rende necessariamente un artigiano migliore. Sono d'accordo, c'è un elemento che fa pensare: "Oh, se ci spargiamo sopra dei dati, sarà una magia". Giusto? Questa magia. Innanzitutto vorrei ammettere che gli statistici hanno utilizzato forme di queste tecnologie, che oggi chiamiamo scienza dei dati, in un modo che alcune aziende hanno fatto per molto tempo....
L'aspetto diverso è che il volume di informazioni e gli strumenti di cui disponiamo fanno sì che non si tratti più di un alto sacerdozio, ma di una prospettiva da uomo comune. Tradizionalmente, abbiamo democratizzato il giornalismo. Abbiamo democratizzato il modo in cui le persone ottengono le informazioni. Se questo settore è all'altezza della promessa e si comporta in modo responsabile con tutte le risorse a sua disposizione, c'è il potenziale per democratizzare i benefici di quello che sarebbe uno sforzo molto finanziato, molto di nicchia, quasi a livello di governo nazionale, per molte persone. C'è l'opportunità di democratizzarlo utilizzando tecnologie open-source, prezzi in calo, prodotti migliori e laureati più intelligenti.
L'analisi analitica sta ricevendo più di una parte dell'attenzione del mercato, ma i feed per questi sistemi analitici non sembrano ancora ricevere la stessa attenzione. Molte aziende sono ferme a quello che usavano prima, o cercano di usare quello che usavano prima per risolvere alcuni dei problemi più recenti. Che cosa sta cambiando sul fronte dell'idraulica che la entusiasma?
Ha ragione, l'idraulica, come Rodney Dangerfield, non si fa rispettare in questo settore. È sempre una questione di "gee whiz", di grafica. "Oh, guardate questa cosa che abbiamo trovato". E così via. Ciò che sta cambiando è che l'impianto idraulico consente di avere il doppio dei data scientist. C'è un tipo di lavoro che scarseggia nel mondo: i data scientist. Il fatto di poter avere il doppio degli chef, come dare il lavoro di sous chef a qualcun altro, è estremamente importante per tutti. Non importa quanto tu sia ricco, perché c'è sempre qualcuno ricco quanto te, o più ricco di te, che compete con te. Il fatto che si possa quasi raddoppiare l'energia da dedicare a quest'area così importante è un fatto enorme e sta facendo crescere l'importanza dell'idraulica. Stanno nascendo nuove parole come data wrangling, per mostrare come la parte del sous-chef che prepara questo meraviglioso risultato stia diventando sempre più importante. Come si profilano i dati? Come ci si assicura a priori che arrivino? Come si fa a interagire con i dati? Come si combinano e si trasformano? Credo che questi aspetti stiano diventando sempre più importanti, perché il ritorno immediato di un beneficio doppio è molto, molto chiaro.
Vi ho sentito usare l'espressione "integrazione così così". Sempre la stessa storia. Perché non dovrei usare gli strumenti che ho? Ho speso un sacco di soldi per questi strumenti. Perché non dovrei usarli per risolvere alcune delle nuove sfide legate ai dati di cui parla?
La domanda non è: si può o non si può? Alcuni dei nostri clienti sono alcune delle aziende più grandi e meglio finanziate del mondo. Si può. La domanda è: dovreste farlo? In questo settore, la domanda è sempre stata: si può o si deve? Quello che ho scoperto in vent'anni di attività è che non si dovrebbe. Gli investimenti in ricerca e sviluppo che abbiamo fatto, con un capitale di 50 milioni di dollari, sono stati destinati alla costruzione di una piattaforma dalle enormi capacità e possiamo far valere i risultati di questo investimento presso tutti i nostri clienti. Inoltre, alcuni attributi della piattaforma offrono l'opportunità di affrontare il passaggio al sito Cloud e l'elemento dati. Il cambiamento nella gravità dei dati, il cambiamento di mentalità dallo stesso vecchio data warehousing alle moderne architetture del nuovo mondo Hadoop che stiamo vedendo. La domanda non è "si può", ma "si deve".
Qual è l'impatto di Cloud computing sul mondo dei dati? Quale impatto sta avendo e avrà nei prossimi 3-5 anni?
Penso che l'impatto immediato di Cloud computing sia la possibilità di accendere un gran numero di poltrone di persone che utilizzano questi prodotti con l'enorme quantità di competenze e di impianti idraulici richiesti...
Nell'area marketing, ogni reparto marketing ha una dozzina o più di applicazioni Cloud/SaaS, spesso senza che il CIO o chiunque altro nell'azienda ne sia a conoscenza. Non le considerano applicazioni, ma siti web. Questo solo per una piccola azienda. Moltiplicando questo dato per un'azienda Fortune 500, probabilmente le cose che arrivano in azienda sono centinaia e centinaia, e la cintura di asteroidi che queste aziende stanno attraversando causa la produzione di più dati, la creazione di più endpoint, l'aumento del coinvolgimento e la necessità di effettuare tabulazioni incrociate o di combinare queste informazioni. Questo sta facendo crescere l'esigenza di un sistema idraulico che non c'è mai stato. Negli anni '90, quando si disponeva di 4 o 5 sistemi, si aveva SAP, Siebel e PeopleSoft e forse un altro. Il fatto che oggi ci sia questa cintura di asteroidi di siti web che gestiscono un'azienda fa sì che il problema dell'integrazione e dell'impianto idraulico salga alla ribalta come mai prima d'ora.
Previsioni tecnologiche per il 2015 - potete guardare questa parte della discussione qui. Ecco alcune altre previsioni tecnologiche per il 2015.
Cosa c'è di diverso in SnapLogic, cosa dovrebbe sapere la gente di SnapLogic che forse non conosce già?
Abbiamo costruito SnapLogic per cambiare il modo in cui le persone si impegnano nell'impresa moderna... Abbiamo costruito questa azienda dalle fondamenta, sulla base delle esperienze che abbiamo avuto negli anni '90, per fornire qualcosa che sia molto semplice da usare, che sia scalabile attraverso il più grande insieme di problemi che qualcuno ci può proporre, e che sia estremamente ben collegato - ha Snaps per una varietà di endpoint e punti di dati. Si tratta di un'unica piattaforma che vi aiuterà a passare al sito Cloud e a utilizzare i big data, Hadoop e la scienza dei dati per risolvere le equazioni analitiche che vi troverete ad affrontare quando la vostra azienda attraverserà grandi cambiamenti.
Le strutture dei dati cambiano, gli endpoint sono molti, molti di più. Li consideriamo come tipi di dati massivamente multipli. Inoltre, disponete di una popolazione molto ampia di utenti che non esisteva negli anni '90, quando l'integrazione era più un'operazione di back office nelle segrete stanze. La sala macchine della nave, non proprio il ponte di comando. I passeggeri non sapevano nemmeno che esistesse, a meno che non smettesse di funzionare.