Home Scatti Pacchetto snap per la preparazione dei dati ML
Icona di preparazione dei dati ML

Snap Pack per la preparazione dei dati ML

Lo Snap Pack ML Data Preparation automatizza diverse attività di preparazione dei dati per un modello di apprendimento automatico.


Questa raccolta completa di snap gestisce tutto, dalla pulizia dei valori mancanti alla rimozione dei duplicati, dalla conversione dei tipi di dati alla scalatura delle caratteristiche e alla sintesi di nuove variabili da set di dati correlati. È possibile convertire dati categorici in formati numerici, estrarre componenti di data e ora per lavorare con le serie temporali, mascherare informazioni sensibili per garantire la conformità, eseguire l'analisi delle componenti principali per ridurre la dimensionalità e campionare e mescolare sistematicamente i dati per l'addestramento e i test.

Sia che abbiate a che fare con dati reali disordinati e pieni di lacune e incoerenze, sia che dobbiate confrontare i record di più fonti, questi Snap vi forniscono gli strumenti di precisione per modellare i dati esattamente come serve ai vostri modelli, il tutto all'interno di SnapLogic, senza dover scrivere complessi script di preparazione o passare da uno strumento all'altro.

Lo snap pack ML Data Preparation comprende i seguenti snap:

  • Da categorico a numerico: Convertire le colonne categoriche in colonne numeriche utilizzando una codifica intera o una codifica a caldo.
  • Pulire i valori mancanti: Sostituire i valori mancanti nei set di dati eliminando o imputando i valori.
  • Estrattore di data e ora: Estrarre componenti da oggetti datetime.
  • Deduplica: Identifica e rimuove i record duplicati dagli insiemi di dati.
  • Sintesi delle caratteristiche: Creazione automatica di caratteristiche da più set di dati che condividono una relazione uno-a-uno o uno-a-molti tra loro.
  • Maschera: Mascherare le informazioni sensibili nel dataset prima di esportarlo per l'analisi.
  • Corrispondenza: Abbinare i record di diverse fonti di dati che rappresentano la stessa entità senza basarsi su una chiave comune.
  • Analisi delle componenti principali: Eseguire l'analisi delle componenti principali per ridurre la dimensionalità.
  • Campione: Genera set di dati campione da un set di dati di input utilizzando algoritmi di campionamento.
  • Scala: Scala i valori nelle colonne per specificare intervalli o applicare trasformazioni statistiche.
  • Mischia: Randomizza l'ordine delle righe di dati nel set di dati.
  • Convertitore di tipi: determina i tipi di valori nelle colonne. I tipi supportati sono quattro: intero, virgola mobile, testo e data.

Per saperne di più, consultate la pagina della documentazione.