Smart Data in der Kritik, denn: Sie sind niemals klug

Smart Data sind der Rohstoff des 21. Jahrhunderts. Vom täglichen Einkauf mit Kundenkarte, dem Online-Kauf des Bahntickets oder dem Messen des Erfolgs telefonischer Kundenakquise – Unternehmen haben die Bedeutung von Big Data längst begriffen. Aber: Was nun mit dem riesigen Pool an Informationen anfangen? Die richtige Auswertung und Verknüpfung dieser Daten müssen Unternehmen erst noch lernen.

Der Begriff Smart Data suggeriert eine neue Dimension in der intelligenten Nutzung von Daten. Interessant dabei ist, dass die in der Informationswirtschaft geprägte Unterscheidung von Daten, Informationen und Wissen – die sogenannte Wissenspyramide – durch den Begriff implizit ad absurdum geführt wird.

Das Attribut „smart“ bezieht sich klar auf angewandtes Wissen, wird aber Daten zugeschrieben. Auflösen kann man dieses scheinbare Oxymoron nur, wenn man Smart Data als Rekursion, also als nicht enden wollenden Zyklus begreift. In diesem werden Daten zu Wissen und dieses wiederum für die Verarbeitung von Daten genutzt. Dabei wird der Smart Data Prozess mit immer neuen Daten am Leben gehalten. Während Big Data die reine massenhafte Verbrennung des Rohstoffes Daten beschreibt, strebt Smart Data so etwas wie Effizienz an.

Der neue effiziente Verbrennungsmotor im Geschäft mit Daten ist laut dem Gartner Marktforschungsinstitut Data Analytics. Smartness, also das Wissen, braucht letztendlich der Mensch: Die Nutzung maschineller Lernverfahren wird zur Kernkompetenz.

Gerade mittelständische Unternehmen möchten auch von der Goldgräberstimmung profitieren und suchen nach Datentöpfen, die sie veredeln können. Zwei der Gebiete im Unternehmen, in denen die profitabelsten Daten vermutet werden, sind oft der Vertrieb und das Marketing. Dabei muss man nicht gleich an Milliarden von Werbeeinnahmen denken, die durch zielgerichtete Werbeeinblendungen im Internet und auf mobilen Geräten gemacht werden.

Es gibt oft naheliegende Anwendungsfelder: Zum Beispiel die Kundenakquise, um ein neues Produkt einzuführen. Werbung ist hier für viele Unternehmen noch deutlich ineffizienter als die direkte Ansprache von Bestandskunden und Kontakten. Smart Data Analytics kann helfen, den damit verbundenen Aufwand zu reduzieren – allerdings gibt es Fallstricke.

Im manuellen Prozess wird aus der Kandidatenmenge in der Regel bei etwa drei Telefonaten ein möglicher Treffer erzeugt. Wie können Daten genutzt werden, um schneller Wissen über erfolgsversprechende „Leads“ zu erzeugen? Maschinelle Lernalgorithmen verwenden hierzu historische Daten und erstellen Klassifikationsmodelle, die sich automatisiert nutzen lassen.

Smart Data braucht vor allem interdisziplinäre Kompetenz

Im Trainingsprozess werden mehrere Klassifikations-Modelle und Eingangsmerkmale erstellt und getestet. Hierzu braucht es viele Daten; ein Teil davon wird typischerweise zum Testen zurückgehalten. Wichtig ist, dass die Trainingsdaten und die Teststichprobe möglichst jeweils repräsentativ und voneinander unabhängig sind. Das ist alles andere als einfach. Wie repräsentativ sind die Daten der letzten Kampagne für diese? Wie sehr beeinflusst ein Anruf den nächsten? Im gegebenen Beispiel könnten wir ein Modell erstellen, das die Zahl der notwendigen Anrufe um ein Drittel reduziert. Hierzu ziehen wir beispielsweise 1.000 Anrufe und erlernen aus 30 Prozent Treffern und 70 Prozent Nichttreffern ein bestimmtes Muster.

Aufgrund des manuellen Trainingsaufwands sollte das Modell nun mindestens so gut sein, dass es bei der Vorhersage der nächsten 1.000 Anrufe zu 70 Prozent richtig liegt. Das Problem dabei ist: Wie teste ich das, ohne weitere Anrufe zu tätigen? Eine Entscheidung, ob das Schema funktionieren wird, ist also alles andere als trivial, selbst wenn es vielversprechende Klassifikationsmodelle gibt.

Einfacher wird der Fall, wenn genügend historische Daten vorliegen. Heutzutage lernen wir manchmal leider schmerzlich, dass verdichtete Datenbasen zwar speichereffizient sind, aber gerade durch die Verdichtung oft die notwendigen Rohdaten für einen maschinellen Lernprozess fehlen. Welche Daten sind wirklich vor einem Telefonat bekannt? Welche wurden nachgepflegt, sind also zum Lernen eines praktikablen Vorhersagemodells ungeeignet?

Aktuelle Big Data-Technologien stellen sicher, dass sich alle Daten durch Transformation von aufgezeichneten Rohdaten erzeugen lassen. Das hat den positiven Nebeneffekt, dass die Berechnungen gut auf viele Rechner hochskaliert werden können und dass Änderungen am Prozess einfach (ohne aufwendige Migration) möglich sind. All das können heutige Datenquellen nicht leisten.

Modelle auf historischen Daten sind historisch: Generalisierbarkeit setzt meist ein extrem gutes Verständnis des Prozesses voraus. Übersehen wird dabei gerne, dass „Data Science“ keine Wissenschaft im eigentlichen Sinne ist, sondern maschinell Hypothesen generiert werden: Sie ist also eher ein Innovationsinstrument.

Innovation bedeutet auch Risiken. Automatisierung durch maschinelles Lernen muss verstanden und bewertet werden. Das setzt voraus, dass ein Data Scientist seine Ergebnisse kritisch diskutieren kann. Insbesondere müssen die Entscheidungsträger verstehen, auf welche Vorhersagen sie wetten. Schon während die Daten entstehen, brauchen die Fachdisziplinen ein stärkeres Bewusstsein für ihren Wert.

Während die Möglichkeiten von Smart Data-Technologien unbestritten immens sind, stehen wir bei der Schaffung von nachhaltigen Smart Data-Innovationsprozessen noch immer am Anfang. Smarte Köpfe werden hierzu auf allen Seiten gebraucht.

Die Autoren Dr. Till Riedel und Dr. Andreas Wierse haben gemeinsam ein „Smart Data Analytics Praxishandbuch“ verfasst, in dem sie unter anderem über ihre Erfahrungen aus dem Smart Data Solution Center Baden-Württemberg am KIT berichten.

Mehr Informationen zu Till Riedel findest du auf seiner TECO-Website.