"Parla in inglese!" disse l'aquilotto. "Non conosco il significato di metà di queste lunghe parole e, per di più, non credo che nemmeno tu lo conosca!". - Alice nel Paese delle Meraviglie
L'apprendimento automatico (e il suo sottoinsieme, l'apprendimento profondo) sono stati salutati come The Next Big Thing, in grado di creare auto autonome, di stravolgere i modelli di business e, in generale, di richiedere un massiccio investimento in capitale umano e finanziario per mantenere un'azienda competitiva. Il clamore ha fatto passare in secondo piano il "come" e soprattutto il "perché". Sebbene in SnapLogic siamo ottimisti sulla promessa dell'apprendimento automatico (ML) in azienda, pensiamo che la prima domanda da porsi non sia "come lo implemento?", ma "che cosa voglio sapere?".
Un corso accelerato di ML
La maggior parte degli algoritmi di ML si basa su qualcosa che potreste aver fatto al liceo: disegnare una linea attraverso un gruppo di punti. In effetti, se avete mai eseguito una regressione in Excel, avete fatto dell'apprendimento automatico. Quindi qual è il problema ora?
In sostanza, il volume dei dati e la potenza di calcolo per elaborarli. La regressione è un esempio di apprendimento supervisionato, che è un modo formale per dire che si conoscono già le risposte corrette, ma si sta cercando di capire quanto sia possibile creare un modello che preveda tali risposte. (L'altra grande classe di problemi è quella dell'"apprendimento non supervisionato", in cui si dispone di una massa di dati ("dati non etichettati") e si spera che in qualche modo un algoritmo possa dare un senso a tutto questo. Poiché probabilmente si hanno molti più dati non etichettati che etichettati, l'elaborazione di questi dati può richiedere una grande potenza di calcolo.
Un'altra categoria importante da notare è il rilevamento delle anomalie (AD). Ci sono molti modi per implementare l'AD, ma l'idea di base è che, dato un insieme di dati, si identifichino i punti che sono "sbagliati". Se avete una carta di credito, probabilmente a un certo punto avete ricevuto una telefonata dalla società emittente perché l'algoritmo AD ha segnalato una transazione come potenzialmente fraudolenta. Oltre che per il rilevamento delle frodi, l'AD è utile per il controllo qualità, la manutenzione predittiva e la sicurezza, tra le altre applicazioni.
L'utilizzo effettivo del Machine Learning in azienda
Se la vostra organizzazione dispone di data scientist, chiedete loro dove trascorrono la maggior parte del tempo. A New York Times ha affermato che "dal 50 all'80% del loro tempo è impiegato nel lavoro banale di raccolta e preparazione di dati digitali indisciplinati, prima che possano essere esplorati per ricavarne informazioni utili". Alcune organizzazioni creeranno dei "Big Data Engineer" per cercare di scaricare il lavoro di raccolta dei dati dai data scientist. In ogni caso, il numero di ore di lavoro dedicate al semplice tentativo di trasformare i dati in una forma utile sarà da 2 a 4 volte superiore a quello effettivamente impiegato per rendere i dati utili.
In SnapLogic, la pulizia dei dati, il lavoro di pulizia dei dati, la trasformazione dei dati - in qualsiasi modo vogliate chiamarla - è la nostra specialità. Ricordiamo che il moderno interesse per l'apprendimento automatico è guidato dal volume di dati disponibili e dalla potenza di calcolo disponibile per elaborarli. Come abbiamo detto di recente, "SnapLogic riunisce tutti i dati, a velocità incredibili e con una facilità mai vista prima. con una facilità mai conosciuta prima. Dati, applicazioni e API: da qualsiasi fonte, ovunque".
Arrivare al sì
Questa è la prima parte di una serie di articoli sull'apprendimento automatico in azienda. I prossimi post approfondiranno quali sono le richieste di ML, quali dati e infrastrutture sono necessari per ottenere queste risposte e come SnapLogic e i suoi partner consentono di realizzare queste soluzioni. Oltre a questa serie, si consiglia di consultare la nostra serie di blog sull'IoT, il nostro canale YouTubeoppure contattateci per una demo.