Machine Learning pratique pour l‘entreprise, partie I

"Parlez anglais ! dit l‘aiglon. "Je ne connais pas le sens de la moitié de ces longs mots et, qui plus est, je ne crois pas que vous le connaissiez non plus ! - Alice au pays des merveilles

L‘apprentissage automatique (et son sous-ensemble, l‘apprentissage profond) a été salué comme la prochaine grande nouveauté, capable de créer des voitures autonomes, de bouleverser les modèles d‘entreprise et, d‘une manière générale, de nécessiter un investissement massif en capital humain et financier pour qu‘une entreprise reste compétitive. Le battage médiatique a noyé le "comment" et surtout le "pourquoi". Chez SnapLogic, nous sommes optimistes quant à la promesse de l‘apprentissage machine (ML) dans l‘entreprise, mais nous pensons que la première question à se poser n‘est pas " comment l‘implémenter ? ", mais " qu‘est-ce que je veux savoir ? ".

Un cours accéléré sur le ML

À la base, la plupart des algorithmes d‘apprentissage automatique sont basés sur quelque chose que vous avez peut-être fait au lycée : tracer une ligne à travers un ensemble de points. En fait, si vous avez déjà effectué une régression dans Excel, vous avez fait de l‘apprentissage automatique. Quel est donc le problème aujourd‘hui ?

Fondamentalement, le volume de données et la puissance de calcul nécessaire pour les traiter. La régression est un exemple d‘apprentissage supervisé, ce qui est une façon formelle de dire que vous connaissez déjà les bonnes réponses mais que vous essayez de voir dans quelle mesure vous pouvez créer un modèle qui prédit ces réponses (ou, comme le dirait un scientifique des données, vous avez des "données étiquetées"). (L‘autre grande catégorie de problèmes est l‘"apprentissage non supervisé", où l‘on dispose d‘une masse de données ("données non étiquetées") et où l‘on espère qu‘un algorithme pourra, d‘une manière ou d‘une autre, donner un sens à tout cela. Étant donné que vous avez probablement beaucoup plus de données non étiquetées que de données étiquetées, le traitement de ces données peut nécessiter une grande puissance de calcul.

Une autre catégorie importante à noter est celle de la détection des anomalies (DA). Il existe de nombreuses façons de mettre en œuvre la détection d‘anomalies, mais l‘idée de base est, à partir d‘un ensemble de données, d‘identifier les points qui sont "erronés". Si vous possédez une carte de crédit, vous avez probablement reçu un jour un appel de la société émettrice parce que son algorithme de détection d‘anomalies a signalé une transaction comme potentiellement frauduleuse. Outre la détection des fraudes, l‘AD est utile pour le contrôle de la qualité, la maintenance prédictive et la sécurité, entre autres applications.

L‘utilisation de l‘apprentissage automatique dans l‘entreprise

Si votre organisation dispose de scientifiques des données, demandez-leur où ils passent le plus clair de leur temps. A New York Times affirmait que "50 à 80 % de leur temps est consacré à la collecte et à la préparation de données numériques désordonnées, avant qu‘elles ne puissent être explorées pour en tirer des informations utiles". Certaines organisations créeront des "ingénieurs Big Data" pour tenter de décharger les data scientists de ce travail de plomberie des données. Quoi qu‘il en soit, 2 à 4 fois plus d‘heures-personnes seront consacrées à essayer de mettre vos données sous une forme utile qu‘à les rendre utiles.

Chez SnapLogic, la plomberie des données, le broyage des données, le travail de conciergerie des données, la transformation des données - quel que soit le nom qu‘on lui donne - est notre spécialité. Rappelons que l‘intérêt actuel pour l‘apprentissage automatique est motivé par le volume de données disponibles et la puissance de calcul disponible pour les traiter. Comme nous l‘avons récemment déclaré, "SnapLogic rassemble toutes vos données, à des vitesses incroyables et avec une facilité jamais connue auparavant. Données, applications et API - de n‘importe quelle source, n‘importe où".

Parvenir à un oui

Il s‘agit de la première partie d‘une série de plusieurs articles sur l‘apprentissage automatique dans l‘entreprise. Les prochains articles aborderont les questions que nous devrions poser à l‘apprentissage automatique, les données et l‘infrastructure nécessaires pour obtenir ces réponses, et la manière dont SnapLogic et ses partenaires permettent de mettre en œuvre ces solutions. Outre cette série, vous pouvez consulter notre série de blogs sur l‘IoT, notre chaîne YouTubeou nous contacter pour une démonstration.