Accueil Les boutons-pression Snap Pack de préparation des données ML
Icône de préparation des données ML

ML Data Preparation Snap Pack

Le ML Data Preparation Snap Pack automatise diverses tâches de préparation des données pour un modèle d‘apprentissage automatique.


Cette collection complète de Snaps permet de tout gérer, depuis le nettoyage des valeurs manquantes et la suppression des doublons jusqu'à la conversion des types de données, la mise à l'échelle des caractéristiques et la synthèse de nouvelles variables à partir d'ensembles de données apparentés. Convertissez les données catégorielles en formats numériques, extrayez les composants de date pour les séries chronologiques, masquez les informations sensibles pour des raisons de conformité, effectuez une analyse en composantes principales pour réduire la dimensionnalité et échantillonnez et mélangez systématiquement les données à des fins de formation et de test.

Que vous traitiez des données réelles désordonnées, pleines de lacunes et d'incohérences, ou que vous deviez faire correspondre des enregistrements entre plusieurs sources, ces Snaps vous offrent des outils de précision pour façonner vos données exactement comme vos modèles en ont besoin, le tout au sein de SnapLogic, sans avoir à écrire des scripts de préparation complexes ou à passer d'un outil à l'autre.

Le ML Data Preparation Snap Pack comprend les snaps suivants :

  • De catégorique à numérique : Convertir les colonnes catégorielles en colonnes numériques en utilisant un codage entier ou un codage à chaud.
  • Nettoyer les valeurs manquantes : Remplacez les valeurs manquantes dans les ensembles de données en supprimant ou en imputant des valeurs.
  • Date Time Extractor : Extraction de composants à partir d‘objets de type datetime.
  • Dédupliquer: Identifier et supprimer les enregistrements en double des ensembles de données.
  • Synthèse d‘éléments : Créez automatiquement des caractéristiques à partir de plusieurs ensembles de données qui partagent une relation de type un à un ou un à plusieurs entre eux.
  • Masquer: Masquez les informations sensibles de votre ensemble de données avant de l'exporter à des fins d'analyse.
  • Correspondance : Faire correspondre des enregistrements provenant de différentes sources de données qui représentent la même entité sans s‘appuyer sur une clé commune.
  • Analyse en composantes principales : Effectuer une analyse en composantes principales pour réduire la dimensionnalité.
  • Échantillon : Générer des ensembles de données échantillons à partir d‘un ensemble de données d‘entrée à l‘aide d‘algorithmes d‘échantillonnage.
  • Échelle : Mettre à l‘échelle les valeurs dans les colonnes pour spécifier des plages ou appliquer des transformations statistiques.
  • Shuffle (Mélanger) : Randomiser l‘ordre des lignes de données dans l‘ensemble de données.
  • Convertisseur de type : détermine les types de valeurs dans les colonnes. Quatre types sont pris en charge : entier, virgule flottante, texte et date.

Pour en savoir plus, consultez la page de documentation.