Der Weg vom VWLer zum Data Scientist war nicht geplant, aber ergab sich für Martin Albers durch seine aufkeimende Begeisterung für Daten. Seinen Berufseinstieg hat er dank früher Schwerpunktorientierung und privater Weiterbildung bei STATWORX geschafft – im Interview berichtet er über seine Erfahrungen.
Herr Albers, bitte stellen Sie sich und Ihre Begeisterung für Daten kurz vor.
Mein Name ist Martin Albers, ich bin Data Science Consultant und arbeite seit 2018 bei der STATWORX GmbH in Frankfurt am Main. Meine Begeisterung für die Arbeit mit Daten habe ich zuerst in meinem Bachelorstudium der Volkswirtschaftslehre entdeckt. Nachdem ich dort bereits einen Schwerpunkt auf statistische Methoden gelegt habe, habe ich mich im Master für ein reines Statistikstudium entschieden. Im Nachhinein betrachtet waren die Kurse in Informatik an der Uni eine sehr wertvolle Grundlage für meine jetzige Tätigkeit als Data Scientist, da unsere Arbeit zu einem Großteil aus Programmierung besteht oder zumindest damit zusammenhängt. Neben dem Studium habe ich außerdem als Werkstudent im Bereich Business Intelligence gearbeitet. Dadurch konnte ich viel Erfahrung mit der Arbeit mit Datenbanken, ETL Tools und Dashboard-Lösungen sammeln, was mich wiederum sehr gut auf meine jetzige Tätigkeit vorbereitet hat.
Da das Kursangebot zu dem Thema Machine Learning damals noch kleiner war als heute, habe ich mir dieses Wissen vor allem privat durch Onlinekurse und Bücher angeeignet. Personen, die sich für dieses Thema interessieren, würde ich vor allem die Bücher „An Introduction to Statistical Learning” und „The Elements of Statistical Learning” von Trevor Hastie und Rob Tibshirani empfehlen. Wer sich vor allem für das Thema Deep Learning interessiert, der kann über die Deep Learning-Spezialisierung auf Coursera einen guten und anwendungsorientierten Zugang zu dem Thema erhalten.
An welchen Aufgaben arbeiten Sie aktuell, können Sie uns einen typischen Tagesablauf skizzieren?
Zurzeit arbeite ich an einem Tool zum Sales Forecasting sowie der Restwertvorhersage von geleasten Fahrzeugen für einen deutschen Automobilhersteller. Sales Forecasting ist ein Prognoseverfahren bei dem, basierend auf den vorhandenen Daten des Kunden, zukünftige Verkaufszahlen geschätzt werden. Bei der Restwertvorhersage wird der Wert des geleasten Fahrzeugs geschätzt, den es bei der vertragsgemäßen Rückgabe an den Leasinggeber haben wird.
Da wir SCRUM als Projektframework nutzen, startet mein Tag meist mit einem Regeltermin, dem sogenannten Daily, bei dem wir uns im Projektteam über unsere geplanten Tätigkeiten für den Tag austauschen. Der weitere Verlauf des Tages variiert stark. Meistens sind meine Arbeitstage aber eine Mischung aus Absprachen mit Kolleg:innen zu technischen Details, Abstimmungen mit Kunden zu Zielen des Projekts und natürlich der Anwendung von Machine Learning Algorithmen und der Datenanalyse. Zurzeit verbringen wir alle sehr viel Zeit im Home Office, aber mit Voranmeldung und unter Einhaltung aller Schutzmaßnahmen dürfen wir auch in unser Büro auf der Hanauer Landstraße kommen, wenn wir das möchten.
Challenge: Natural Language Processing
Welche technologische Herausforderung reizt Sie aktuell besonders und warum?
Technologisch interessant ist momentan vor allem der Bereich des Natural Language Processing, da sich durch die starken Verbesserungen in diesem Bereich, durch zum Beispiel GPT-3 und dem Open Source Project Huggingface, dort interessante Use Cases entwickelt haben. Aktuell bearbeiten wir zum Beispiel ein Projekt, bei dem wir automatisiert Angebotstexte analysieren, um ein Recommender System für weitere passende Anbieter zu erstellen. Ein weiteres interessantes Projekt ist die Suche nach Rechtstexten durch Neural Search. Ein Thema, das bereits in den letzten Jahren verstärkt aufkam und an dem ich gerne arbeite, ist der Bereich Data Science Operations. Dabei geht es um das Einbetten von Modellen in die IT-Infrastruktur der Organisation, sodass diese letztendlich auch einen geschäftlichen Mehrwert liefern können.
Mit welchen Fragen kommen Kunden in der Regel auf STATWORX zu?
Die Anfragen unserer Kunden sind sehr divers, denn der Reifegrad der Unternehmen beim Thema Data Science und künstliche Intelligenz (KI) ist zurzeit sehr unterschiedlich. Manche haben bereits viel Erfahrung oder sogar eigene Data Science-Teams und benötigen uns als externen Dienstleister zur Unterstützung bei der Entwicklung komplexer Lösungen. Andere haben wiederum so gut wie keine Berührungspunkte und müssen zunächst einmal an das Thema herangeführt werden. Wir betreuen Unternehmen also in allen Phasen der Implementierung von Data Science & KI; wir nennen das End-2-End: Von den ersten Projekten, die wir gemeinsam in Use-Case Workshops erarbeiten, bis zur Weiterbildung von Mitarbeitenden auf allen Unternehmensebenen und für alle Unternehmensbereiche.
Die Elemente einer Data Science-Strategie
Aus Neukundensicht: Was sind die Eckpfeiler einer vernünftigen Data Science-Strategie?
Basierend auf der langjährigen Erfahrung im Data Science-Bereich haben wir sechs Kernelemente erfolgreicher Data Science und KI-Strategie abgeleitet. Tatsächlich hat unser CEO Sebastian erst Ende letzten Jahres ein Whitepaper zu diesem Thema veröffentlicht. Darin schreibt er: „Durch die strukturierte Betrachtung dieser sechs Elemente können die wichtigsten strategischen Entscheidungen im Hinblick auf eine erfolgreiche Etablierung von KI-Initiativen abgeleitet werden.“
Die Kernelemente beinhalten:
1. Daten als Asset und Grundlage aller datengetriebenen Innovationen verstehen.
2. Use Cases strukturiert identifizieren und priorisieren.
3. Ein Data Science & AI Team mit diversen Skills zusammenstellen.
4. Eine flexible und skalierbare IT-Infrastruktur aufbauen.
5. Agile und datengetriebene Organisationsstrukturen etablieren.
6. Ethisch und rechtlich unbedenkliche Datennutzung und -zugang durch effektive Governance-Maßnahmen sicherzustellen.
Welche Themen werden die Branche -nicht- wie zuvor gedacht bewegen?
Es wird häufig von großen Änderungen im Data Science-Bereich und die Ersetzung des Data Scientisten durch automatisiertes Machine Learning gesprochen. Ich denke, dass die verschiedenen Frameworks, wie zum Beispiel H20, nur weitere Tools sind, die unsere Arbeit zwar erleichtern, aber nicht ersetzen. Dadurch bleibt uns zum Beispiel mehr Zeit für die Analyse der Modellergebnisse durch Explainable AI (XAI). Gerade auf diesem Gebiet gab es in den letzten Jahren große Neuerungen und spannenden Methoden, um auch komplexe Deep Learning Modelle verstehen zu können.
Berufseinstieg in Data Science
Wie sind Sie selbst auf STATWORX als Arbeitgeber aufmerksam geworden?
Ich habe mir damals einen Überblick über Beratungsunternehmen im Data Science-Bereich geschaffen, da ich verschiedene Branchen und Unternehmen kennenlernen wollte. Bei STATWORX habe ich dann alles weitere gefunden was mich interessiert hat: Interessante Data Science Use-Cases, eine Unternehmensgröße, bei der man noch alle Mitarbeiter:innen persönlich kennt und ein Team, mit dem man auch gerne noch nach Feierabend ein Bier trinkt. Dies hat dann letztendlich zur Bewerbung und meiner späteren Tätigkeit geführt.
Hat Sie bei STATWORX im Arbeitsalltag etwas besonders überrascht, was Sie so nicht erwartet haben?
Die typischen Use-Cases aus Fachbüchern und von Kaggle sind meist schnell zu durchdringen und das Ziel des Projekts sowie die zu vorhersagende Variable ist schnell klar. In vielen unserer Projekte jedoch ist das Problem meist komplexer oder noch nicht genau definiert. Dadurch erfordert es meist viel Arbeit und viele Absprachen, bis die Problemstellung des Kunden genau eingegrenzt wurde und wir es in ein entsprechendes Data Science-Problem umformulieren können. Diese Herausforderung reizt mich besonders bei der Arbeit und so gibt es jeden Tag Neues zu entdecken.