Il viaggio di Big Data e Hadoop nell'impresa elastica

Acquisire, preparare e consegnareIl webinar di questo mese era dedicato a grandi dati e come i clienti possono utilizzare la Piattaforma di Integrazione Elastica SnapLogic e SnapReduce 2.0. Nella discussione e dimostrazione dal vivo di ieri, abbiamo parlato con Lo scienziato capo di SnapLogic Greg Benson, professore di informatica presso l'Università di San Francisco e da oltre 20 anni impegnato nella ricerca sui sistemi distribuiti, sulla programmazione parallela, sui kernel dei sistemi operativi e sui linguaggi di programmazione. Il webinar ha approfondito i dettagli di SnapReduce 2.0 per l'integrazione dei big data (di cui parleremo più avanti), ma prima abbiamo parlato di Hadoop in termini di dove è stato, dove sta andando e quali sono le implicazioni per il data warehousing aziendale tradizionale. Ecco un breve riassunto:

  • Il viaggio nei Big Data: Greg ha parlato delle prime iniziative e dei primi casi d'uso e di come molti "dati esausti" venissero lasciati a terra.
  • Hadoop e data warehousing: Molti ritengono che Hadoop e l'ecosistema Hadoop finiranno per sostituire quello che oggi fanno i data warehouse relazionali, grazie all'economia di Hadoop e a ciò che è diventato possibile in termini di archiviazione dei dati. Al momento, però, sono complementari.
  • Implicazioni sull'integrazione dei dati: C'è stata una buona discussione sul perché le vecchie tecnologie non funzionano nella nuova era dello SMAC e sulla varietà di fonti e casi d'uso per l'elaborazione dei dati sia in streaming che in batch.
  • La necessità di acquisire, preparare e fornire big data: Questo include sia l'elaborazione batch che quella in streaming per una nuova generazione di ETL/ELT.

Dopo la discussione sui big data, Greg e il team sono passati a SnapReduce 2.0 e al concetto di elastic scale out, con una sessione di domande e risposte per rispondere alle domande di clienti e prospect. Di seguito sono riportate le diapositive della presentazione e le domande:

Come si fa a far funzionare SnapLogic su due cloud... ad esempio Salesforce in un cloud e i dati sociali in un altro cloud?
La prima cosa da capire è che SnapLogic Snaplex rispetta la gravità dei dati. Da questa domanda, sembra che i "servizi" siano visti come cloud separati. SnapLogic collega facilmente servizi e applicazioni separati e può farlo sia nel nostro cloud sia attraverso uno Snaplex in esecuzione on premises o in un VPC. Come abbiamo illustrato nel webinar, con SnapReduce, Snaplex può anche essere eseguito in modo nativo come applicazione YARN all'interno di un cluster Hadoop.

È possibile eseguire trasformazioni sui dati prima che vengano effettivamente scritti su HDFS?
Sì, assolutamente. Durante lo streaming dei dati in HDFS, i dati possono essere filtrati o trasformati prima della scrittura in HDFS.

I flussi di dati (pipeline) sono convertiti in file jar o in qualcosa di simile a Pig?
L'ode di MapReduce viene generata direttamente e rilasciata ad Hadoop come jar.

SnapLogic può scrivere direttamente un file .tde per Tableau o è un file CSV che Tableau converte successivamente nel suo formato nativo?
SnapLogic Tableau Snap scrive direttamente in un TDE.

Una volta letti i dati da HDFS utilizzando HDFS Reader, sarei in grado di fare un join con i dati presenti in una fonte / database (ad esempio Oracle) / SQL Server)? In caso affermativo, dove si trova la pipeline?
Sì, è possibile farlo e in questo scenario la pipeline verrebbe eseguita in Hadoop, ma su un singolo nodo Hadoop. Non verrebbe eseguita come lavoro MapReduce.

Categoria: Notizie
Argomenti: Webcast sui grandi dati SnapReduce

Stiamo assumendo!

Scoprite la vostra prossima grande opportunità di carriera.