Maschinelles Lernen hat ein Datenintegrationsproblem: Die Notwendigkeit der Selbstbedienung

5 Minuten lesen

Als wir den Iris Integration Assistant, eine KI-gestützte Empfehlungsmaschine, entwickelten, war dies SnapLogics erster Ausflug in das maschinelle Lernen (ML). Dabei haben wir viele nützliche Erkenntnisse gewonnen, aber eine stach besonders hervor: Wir haben festgestellt, dass maschinelles Lernen mit vielen Herausforderungen bei der Datenintegration verbunden ist.

Natürlich war uns von Anfang an klar, dass die Entwicklung eines ML-Modells die Integration von Daten voraussetzt. Aber wir wussten nicht, wie schwerwiegend und weitreichend die Herausforderungen der Integration sein würden.

Integrationshürden sind die Norm

In der Tat sind wir nicht die einzigen, die beim Einstieg in das maschinelle Lernen auf eine Reihe von Integrationshürden gestoßen sind. Eine Umfrage unter fast 200 Datenwissenschaftlern ergab , dass 53 Prozent der Befragten die meiste Zeit für das Sammeln, Kennzeichnen, Bereinigen und Organisieren von Daten aufwenden - alles Integrationsaufgaben.

Leider kommt man beim maschinellen Lernen nicht um die Notwendigkeit herum, seine Daten zu bereinigen und vorzubereiten. Wenn Sie ein Modell mit schlechten Daten trainieren, erhalten Sie im Gegenzug ein schlechtes Modell. "Schmutzige Daten" sind nach wie vor das größte Problem, mit dem Datenwissenschaftler heute konfrontiert sind[1].

Dies führt uns zu dem Schluss, dass die Notwendigkeit der Datenintegration während des gesamten Lebenszyklus des maschinellen Lernens nicht verschwinden wird. Aber die vorherrschenden Code-first-Ansätze für diese Datenintegrationsprobleme müssen sich ändern. Manuelle Integrationsaufgaben verschlingen wertvolle Zeit, die Datenwissenschaftler eigentlich für strategische, hochwirksame Aufgaben verwenden sollten. Im schlimmsten Fall vereiteln sie Ihre Projekte für maschinelles Lernen vollständig und verhindern, dass Sie die versprochene Rendite aus Ihren KI-Investitionen erzielen.

Bei der Entwicklung und Bereitstellung von maschinellem Lernen besteht ein dringender Bedarf an Selbstbedienungsintegration.

Was sind die wichtigsten Herausforderungen bei der Integration von maschinellem Lernen?

Gleich zu Beginn stößt der Datenwissenschaftler auf Herausforderungen bei der Integration. Er muss Daten aus verschiedenen Quellen erfassen, um einen großen, hochwertigen Trainingsdatensatz zu erstellen.

Der Datenwissenschaftler muss vielleicht POS-Daten aus einem Cloud Data Lake wie Amazon S3 extrahieren, Protokolldateien von einem Webserver abrufen oder Bestandsdaten aus einem Oracle ERP-System sammeln. Normalerweise bitten sie die IT-Abteilung um Zugriff auf diese Daten in Form eines einmaligen Datenabzugs. Oder sie schreiben benutzerdefinierte Skripte, beispielsweise in Python. Beide Optionen sind langsam und lassen sich nur schwer zuverlässig wiederholen. Wenn der Datenwissenschaftler auf andere Tabellen innerhalb einer bestimmten Datenquelle zugreifen möchte, muss er die gleichen umständlichen Schritte unternehmen, was die Time-to-Value weiter verzögert.

Bei der Aufbereitung der gewonnenen Rohdaten stehen die Datenwissenschaftler vor weiteren Integrationsherausforderungen. Sie müssen irrelevante Details herausfiltern, sensible Informationen bereinigen, Fehler erkennen und entfernen, Datentypen ändern, fehlende Werte bereinigen und andere Datenbereinigungsaufgaben bewältigen. In der Regel bereiten Datenwissenschaftler die Daten vor, indem sie in Python - oder einer anderen Programmiersprache - in Jupyter Notebooks kodieren. Sicherlich bietet die Kodierung Flexibilität bei der Anpassung von Daten, aber sie verschlingt wertvolle Zeit für nicht-strategische, eintönige Arbeiten.

Der Integrationsaufwand hört damit nicht auf. Sobald der Datenwissenschaftler einen Algorithmus ausgewählt hat (z. B. eine logistische Regression), muss er das Modell mit den Trainingsdaten füttern, die er so mühsam vorbereitet hat. Dies erfordert wiederum mehr Kodierung. Nach dem Training muss das Modell getestet und kreuzvalidiert werden, um sicherzustellen, dass seine Vorhersagen korrekt sind. Mehr Integrationen, mehr Kodierung.

Wenn das Modell schließlich für den Einsatz in der Praxis bereit ist, muss der Datenwissenschaftler das Modell häufig an ein Softwareentwicklungsteam (DevOps) zur Operationalisierung übergeben. In vielen Fällen muss DevOps diesen Code in ein anderes Format konvertieren. Darüber hinaus muss das Modell in einem Webdienst gehostet werden, um API-Anfragen zu erfüllen. Solche Aktivitäten sind sehr integrationsintensiv und erfordern manuelles Scripting.

Im Idealfall werden Sie Ihr Modell iterieren, um seine Vorhersagegenauigkeit nach der Inbetriebnahme weiter zu verbessern. Dies ist jedoch nur möglich, wenn Sie es kontinuierlich mit neuen Daten trainieren. Das bedeutet, dass Sie sich die ganze Mühe machen müssen, neue Quelldaten zu beschaffen, die Daten zu bereinigen und vorzubereiten, Entwickler zu beauftragen, Ihr Modell wieder in Produktion zu bringen, und so weiter.

Die übermäßige Kodierung, Redundanz und das manuelle Ausprobieren beim traditionellen Ansatz des maschinellen Lernens sind nicht mehr tragbar. Es ist an der Zeit, den Prozess des maschinellen Lernens durch eine Self-Service-Integration zu ergänzen.

Die Zukunft der Selbstbedienung beim maschinellen Lernen

Eine Self-Service-Lösung für den Lebenszyklus des maschinellen Lernens sollte routinemäßige - aber dennoch wichtige - Arbeiten wie das Mischen von Daten automatisieren. Sie sollte auch Redundanzen ausmerzen. Wenn Sie beispielsweise einen ersten Trainingsdatensatz erstellen, sollten Sie in der Lage sein, die Quelldaten einmal zu integrieren und diese Pipeline dann in Zukunft für kontinuierliches Training wiederzuverwenden.

In einer Self-Service-Umgebung werden Datenwissenschaftler ihre Zeitpläne nicht mehr mit Integrationsaktivitäten wie dem Sammeln, Bereinigen und Organisieren von Daten vollstopfen. Stattdessen werden sie kritisch denken, wichtige Geschäftsprobleme lösen, außergewöhnliche Modelle für maschinelles Lernen erstellen, sich andere Anwendungsfälle für KI ausdenken und neue Wege zur Wertschöpfung finden.

Self-Service-ML sollte maschinelles Lernen auch denjenigen zugänglich machen, die über weniger spezialisierte Fähigkeiten verfügen, aber mit den Fachleuten in der Branche vertraut sind (z. B. Business-Analysten und Citizen Data Scientists). Ähnlich wie bei der "Demokratisierung" von Aufgaben in anderen Bereichen werden dadurch Engpässe abgebaut und mehr Menschen in Unternehmen in die Lage versetzt, mit maschinellem Lernen Ergebnisse zu erzielen.

Auf diese Weise können die Unternehmen weitaus mehr Anwendungsbereiche für die Technologie erkunden, als sie es sonst tun würden. Infolgedessen werden sie in der Lage sein, eine größere Anzahl effektiver Modelle zu entwickeln, die einen Mehrwert für das Unternehmen darstellen.

Die Auswirkungen der ML-Selbstbedienung werden massiv sein

Letztendlich sollte eine Self-Service-ML-Lösung die Entwicklung und den Einsatz von maschinellem Lernen beschleunigen. Dadurch können Unternehmen weitaus mehr Anwendungsbereiche für die Technologie erschließen, als es ihnen sonst möglich wäre. Infolgedessen werden sie eine größere Anzahl effektiver Modelle erstellen, die einen Mehrwert für das Unternehmen darstellen. Sie werden nicht nur über Modelle verfügen, die z. B. Abläufe rationalisieren, sondern auch über solche, die die Produktsicherheit verbessern, den Absatz bestehender Produkte steigern und neue Umsatzkanäle erschließen.

Was wir hier beschreiben, ist eine Selbstbedienungslösung, die sowohl die Datenintegration als auch die Entwicklung und Bereitstellung von maschinellem Lernen übernimmt. Die Auswirkungen einer solchen Lösung könnten tiefgreifend sein. Wir bei SnapLogic haben die Vermutung, dass maschinelles Lernen im Selbstbedienungsmodus schon bald möglich sein wird. Bleiben Sie dran.


[1] Dies basiert auf einer Umfrage unter Tausenden von Datenwissenschaftlern. Auf diese spezielle Frage gingen 7.376 Antworten von Datenwissenschaftlern und anderen datenorientierten Berufsgruppen wie Analysten, Dateningenieuren, Programmierern usw. ein.
https://www.kaggle.com/surveys/2017

Ehemaliger Chief Data Officer bei SnapLogic

Wir stellen ein!

Entdecken Sie Ihre nächste große Karrierechance.