Traumjob Data Science – Teil II: Einblicke in den Alltag eines Data Scientisten

von | 28. Jan. 2020 | Künstliche Intelligenz, News

Teil zwei unseres Interviews mit Dr. Dennis Müller

Data Scientist – einer der angesagtesten Jobs derzeit. Aber wie wird man eigentlich zum Data Scientisten und wie kann man sich das operative Tagesgeschäft eines Datenspezialisten vorstellen? Wir haben mit Herrn Dr. Dennis Müller, Data Scientist der Kenbun IT AG, über das Berufsbild Data Science gesprochen.

In Teil zwei steigen wir näher ein ins Geschehen und schauen uns den Arbeitsalltag eines Data Scientisten an. Welche Aufgaben hat er zu bewältigen? Welche Programme / Tools verwendet er/sie? Und wie sieht eine ideale Arbeitsumgebung für einen Data Scientisten aus?

 

Wie sieht Ihr Arbeitsalltag bei Kenbun aus?

Ich stehe morgens auf und radel zum Technologiehub, in der Technologieregion Karlsruhe. In einem unscheinbar aussehenden Gebäude in der Oststadt befindet sich die Technologiefabrik – die Geburtsstätte und der Sitz vieler innovativer Unternehmen – so auch der Kenbun IT AG. Dort befindet sich mein Arbeitsplatz. Auf dem Tisch ein moderner Rechner, angeschlossen an einen noch moderneren Monitor. Wir arbeiten mit der neusten Technik: Mit Cloud-Rechnern mit entsprechender GPU-Power, powered by NVIDIA. Je nach Projekt manage ich dort ein Modelltraining, analysiere Daten oder bereite einen Workshop vor.

 

Mit welchen Programmen arbeiten Sie hauptsächlich? Welche Ihrer Programmierkenntnisse nutzen Sie dabei am häufigsten?

Die von mir wohl am häufigsten gebrauchte Kenntnis ist das Programmieren in einer Skriptsprache wie zB Python oder R. Hilfreich ist auch das Jupyter Ökosystem, sei es nun Lab oder Notebooks, da dieses den Vorteil hat nicht nur die Daten zu manipulieren bzw. Modelle zu trainieren, sondern die Dokumentation der Vorgehensweise mit entsprechenden Visualisierungen direkt mitliefert. Je nach Anforderung bieten sich fürs Programmieren auch PyCharm oder Spyder an. Für den Umgang mit Deep Learning-basierten Modellen ist ein gesundes Basiswissen in Tensorflow und Pytorch unabdingbar. Für die Transformation von strukturierten Daten ist die Pythonbibliothek Pandas die erste Anlaufstelle. Um nicht noch weitere Bibliotheken aufzuzählen, verweise ich an dieser Stelle auf eines der vielen „Data Science with Python“-Bücher.
Präsentationen erstelle ich meistens mit Powerpoint, seltener mit LaTex.
Da viele unserer Modelltrainings remote ablaufen, durfte ich in letzter Zeit mein Wissen über die Linux Shell updaten, um z.B. wiederkehrende Arbeitsschritte zu automatisieren. Abschließend ist es noch für mich wichtig mit neuen Paper aktuelle Entwicklungen zu verfolgen, die man zB. mit Google Schoolar oder auch arxiv-sanity.com findet.

 

Wieso haben Sie sich dafür entschieden, bei einem Start up zu arbeiten? Was sind deiner Meinung nach die Vorteile im Gegensatz zur Arbeit bei einem Konzern?

Bei einem Start-up zu arbeiten ist extrem attraktiv, da man einen runden Überblick über alle Prozessschritte innerhalb des Unternehmens erhält. Vom ersten Kundenkontakt, bis hin zur Inbetriebnahme eines Modells – man ist bei allen Projekten immer hautnah mit dabei und kann mitwirken. Dadurch sind meine Tätigkeiten sehr vielseitig und abwechslungsreich.

Ich arbeite gerne bei Kenbun, weil ich nicht nur als Experte in meinem Themengebiet, sondern als Ideengeber für Problemstellungen im gesamten Data Science-Umfeld eingesetzt werde. Ich habe die Chance mich in vielen Bereichen aktiv einzubringen und so einen wirklichen Mehrwert für das eigene Unternehmen zu stiften.

 

Kenbun hat vor kurzem sein erstes eigenes Produkt released – eine KI-Plattform namens Kidan. Sie als Data Scientist sind letztendlich die Person, die mit einer solchen Plattform arbeiten muss. Jetzt wollten wir von Ihnen wissen, wieso es für die Anforderungen eines Data Scientisten so wichtig ist, eine geeignete KI-Plattform zu besitzen. Ist es sinnvoll, dass ich als Arbeitnehmer in eine solche Plattform investiere?

Ja, auf jeden Fall. Denn gute KI-Plattformen vereinfachen Data Scientisten die Arbeit und sparen sehr sehr viel Zeit.

Man kann sich das wie folgt vorstellen: Umso weniger Zeit man mit der Anbindung der Daten an die Analytics-Plattform bzw. die jeweilige Schnittstelle verbringen muss, umso mehr kann man sich als Data Scientist um die effektive Modellierung des Problems kümmern. Muss man z.B. erst herausfinden in welcher Datenbank sich die benötigten Informationen befinden, in welchem Format diese gespeichert sind, ob dieses konsequent verwendet wurde, oder ob Sicherheitskopien vorhanden sind, geht schon einmal viel Zeit verloren. Je schneller mit der eigentlich wertschöpfenden Tätigkeit begonnen werden kann, desto schneller kann der Data Science Lifecycle iteriert werden – was zu besseren Modellen und tieferen Einsichten in die Problemklasse sowie der letztendlichen Lösung führt. Und am Ende muss man sich als Data Scientist nicht so viele Gedanken über die Auslieferung des Modells machen, weil gute KI-Plattformen auch in diesem Schritt des Data Science Lifecycles unterstützen. 

 

Vielen Dank Herr Müller, dass Sie sich Zeit für unser Interview genommen und uns in die Welt eines Data Scientisten eingeführt haben.

Bio Michael