Questa raccolta completa di snap gestisce tutto, dalla pulizia dei valori mancanti alla rimozione dei duplicati, dalla conversione dei tipi di dati alla scalatura delle caratteristiche e alla sintesi di nuove variabili da set di dati correlati. È possibile convertire dati categorici in formati numerici, estrarre componenti di data e ora per lavorare con le serie temporali, mascherare informazioni sensibili per garantire la conformità, eseguire l'analisi delle componenti principali per ridurre la dimensionalità e campionare e mescolare sistematicamente i dati per l'addestramento e i test.
Sia che abbiate a che fare con dati reali disordinati e pieni di lacune e incoerenze, sia che dobbiate confrontare i record di più fonti, questi Snap vi forniscono gli strumenti di precisione per modellare i dati esattamente come serve ai vostri modelli, il tutto all'interno di SnapLogic, senza dover scrivere complessi script di preparazione o passare da uno strumento all'altro.
Lo snap pack ML Data Preparation comprende i seguenti snap:
- Da categorico a numerico: Convertire le colonne categoriche in colonne numeriche utilizzando una codifica intera o una codifica a caldo.
- Pulire i valori mancanti: Sostituire i valori mancanti nei set di dati eliminando o imputando i valori.
- Estrattore di data e ora: Estrarre componenti da oggetti datetime.
- Deduplica: Identifica e rimuove i record duplicati dagli insiemi di dati.
- Sintesi delle caratteristiche: Creazione automatica di caratteristiche da più set di dati che condividono una relazione uno-a-uno o uno-a-molti tra loro.
- Maschera: Mascherare le informazioni sensibili nel dataset prima di esportarlo per l'analisi.
- Corrispondenza: Abbinare i record di diverse fonti di dati che rappresentano la stessa entità senza basarsi su una chiave comune.
- Analisi delle componenti principali: Eseguire l'analisi delle componenti principali per ridurre la dimensionalità.
- Campione: Genera set di dati campione da un set di dati di input utilizzando algoritmi di campionamento.
- Scala: Scala i valori nelle colonne per specificare intervalli o applicare trasformazioni statistiche.
- Mischia: Randomizza l'ordine delle righe di dati nel set di dati.
- Convertitore di tipi: determina i tipi di valori nelle colonne. I tipi supportati sono quattro: intero, virgola mobile, testo e data.
Per saperne di più, consultate la pagina della documentazione.

