Startseite Schnappschüsse ML Datenvorbereitung Snap Pack
Symbol für ML-Datenvorbereitung

ML-Datenvorbereitung Snap Pack

Das ML Data Preparation Snap Pack automatisiert verschiedene Datenvorbereitungsaufgaben für ein maschinelles Lernmodell.


Diese umfassende Sammlung von Snaps ermöglicht alles, vom Bereinigen fehlender Werte und Entfernen von Duplikaten bis hin zum Konvertieren von Datentypen, Skalieren von Merkmalen und Synthetisieren neuer Variablen aus verwandten Datensätzen. Konvertieren Sie kategorische Daten in numerische Formate, extrahieren Sie Datums- und Zeitkomponenten für Zeitreihen, maskieren Sie sensible Informationen für die Einhaltung von Vorschriften, führen Sie eine Hauptkomponentenanalyse durch, um die Dimensionalität zu reduzieren, und ziehen Sie systematisch Stichproben und mischen Sie Daten für Training und Tests.

Ganz gleich, ob Sie es mit unübersichtlichen realen Daten voller Lücken und Inkonsistenzen zu tun haben oder Datensätze aus mehreren Quellen abgleichen müssen, diese Snaps geben Ihnen die Präzisionswerkzeuge an die Hand, mit denen Sie Ihre Daten genau so gestalten können, wie es Ihre Modelle benötigen - und das alles innerhalb von SnapLogic, ohne komplexe Vorbereitungsskripte schreiben oder zwischen mehreren Tools wechseln zu müssen.

Das ML-Datenvorbereitungs-Snap-Pack enthält die folgenden Snaps:

  • Kategorisch in Numerisch: Konvertieren Sie kategorische Spalten in numerische Spalten, indem Sie eine ganzzahlige Kodierung oder eine heiße Kodierung verwenden.
  • Fehlende Werte bereinigen: Ersetzen Sie fehlende Werte in Datensätzen durch Weglassen oder Imputieren von Werten.
  • Datum Zeit Extraktor: Extrahiert Komponenten aus Datetime-Objekten.
  • Deduplizieren: Identifizieren und entfernen Sie doppelte Datensätze aus Datensätzen.
  • Merkmalssynthese: Automatische Erstellung von Merkmalen aus mehreren Datensätzen, die in einer eins-zu-eins oder eins-zu-vielen Beziehung zueinander stehen
  • Maskieren: Maskieren Sie sensible Informationen in Ihrem Datensatz, bevor Sie den Datensatz für Analysen exportieren.
  • Abgleichen: Abgleich von Datensätzen aus verschiedenen Datenquellen, die dieselbe Entität darstellen, ohne sich auf einen gemeinsamen Schlüssel zu stützen
  • Hauptkomponentenanalyse: Führen Sie eine Hauptkomponentenanalyse zur Dimensionalitätsreduktion durch.
  • Stichprobe: Erzeugen von Beispieldatensätzen aus einem Eingabedatensatz unter Verwendung von Stichprobenalgorithmen.
  • Skalieren: Skalieren Sie Werte in Spalten, um Bereiche anzugeben oder statistische Transformationen anzuwenden.
  • Mischen: Die Reihenfolge der Zeilendaten im Datensatz wird zufällig festgelegt.
  • Typkonverter: Bestimmt die Typen von Werten in Spalten. Es gibt vier unterstützte Typen: Ganzzahl, Fließkomma, Text und Datetime.

Weitere Informationen finden Sie auf der Dokumentationsseite.