Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber. Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten. Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben. Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt. Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Listen on:

Episodes

Thursday Jul 20, 2023

#28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten

Thursday Jul 20, 2023

Wir tauchen ein in ein Real-Time Analytics-Projekt in dem wir den Fraud-Detection-Prozess mittels Echtzeitdaten für eine*n Kund*in verbessern. Dabei beleuchten wir die von uns antizipierten Herausforderungen des Projekts sowie unsere Lösungsansätze. Natürlich haben wir einige Dinge auch nicht kommen sehen, die daraus resultierenden Erkenntnisse teilen wir mit euch.

Thursday Jul 06, 2023

#27: Kann ein Large Language Model (LLM) bei der Klassifikation tabellarischer Daten XGBoost schlagen?

Thursday Jul 06, 2023

Wir diskutieren den Einsatz von Large Language Models (LLMs) zur Klassifikation tabellarischer Daten, ein bis dato eher unerforschtes Anwendungsfeld. Wir vergleichen die Leistung eines LLMs mit der von XGBoost in einem Projekt zur Vorhersage von Churn. Obwohl XGBoost noch die Nase vorn hat, zeigt das LLM bemerkenswerte Ergebnisse. Wir beleuchten die technische Umsetzung, Herausforderungen sowie Potenziale, und geben einen Ausblick auf die Entwicklung dieses spannenden Anwendungsfeldes.

Links:
OpenAI Fine-Tune for Classification Example: https://github.com/openai/openai-cookbook/blob/main/examples/Fine-tuned_classification.ipynb
TabLLM Paper: https://arxiv.org/abs/2210.10723
Dataset: https://www.kaggle.com/datasets/datazng/telecom-company-churn-rate-call-center-data
Large Language Models in Production Conference: https://home.mlops.community/public/events/llm-in-prod-part-ii-2023-06-20

Thursday Jun 22, 2023

#26: A/B-Testing: Erkenntnisse statt Bauchgefühl

Thursday Jun 22, 2023

A/B-Testing ermöglicht datenbasierte Entscheidungen, wir diskutieren Best Practices und tauchen in fortgeschrittene Themen wie Bayesianische A/B-Tests und Multi-Armed Bandits ein. Außerdem geben wir hilfreiche Tipps und erläutern explizit die Fallstricke beim A/B-Testing, damit ihr eure eigenen A/B-Tests effektiver gestalten könnt.
Links:
https://www.inwt-statistics.com/blog/ab-testing
https://www.inwt-statistics.de/blog/multi-armed-bandits-als-alternative-zum-a-b-test

Thursday May 25, 2023

#25: Feature Store: Features als wiederverwendbares Datenprodukt

Thursday May 25, 2023

Feature Stores sind aktuell ein Trend im Bereich MLOps (Machine Learning Operations). Sie zielen darauf ab das Feature Engineering einfacher und schneller zu machen. Um Features nicht in jedem Projekt neu aufzubauen, bietet ein Feature Store die Möglichkeit sie quasi fertig aus dem Regal zu nehmen. Sinnvoll ist dies besonders wenn eine hohe Data Maturity vorhanden ist, d.h. wenn viele Modelle auf Features zugreifen und es viele Überschneidungen gibt.
Links:- https://mlops.community/learn/feature-store/- https://docs.databricks.com/machine-learning/feature-store/online-feature-stores.html

Thursday May 11, 2023

#24: Explainable AI: Entscheidungen von Black-Box-Modellen verstehen

Thursday May 11, 2023

Explainable Artificial Intelligence (XAI) setzt auf Black-Box-Modelle aus der Welt der künstlichen Intelligenz auf und macht sie interpretierbar. Damit verbindet XAI die Vorteile von KI mit denen der klassischen Statistik. Wie ermöglicht XAI komplexe Entscheidungsprozesse von Black-Box-Modellen zu verstehen und ihnen zu vertrauen? Dieser Frage gehen wir in dieser Folge nach.
Links:
Impact Distillery: "Explainable AI – Vertrauen ist gut, Verständnis ist besser" von Prof. Dr. Steffen Wagner: https://www.impactdistillery.com/de/blog/2020-11-explainable-ai (inklusive der angesprochenen Grafiken)

Thursday Apr 27, 2023

#23: Unsexy aber wichtig: Tests und Monitoring

Thursday Apr 27, 2023

Während Tests und Monitoring in der Softwareentwicklung schon lange Standard sind, ist die Data Science-Welt manchmal noch etwas hinterher. Wir schreiben viel Code, der regelmäßig im Produktivbetrieb läuft, u.a. um Prognosen zu berechnen und unseren Kund*innen zur Verfügung zu stellen. Dabei wollen wir sicher sein, dass alles funktioniert und mögliche Fehler zeitnah bemerken. Welche Besonderheiten es im Bereich Data Science dabei gibt, diskutieren wir in dieser Episode.

Thursday Apr 13, 2023

#22: Sind Makro-Prognosen in Zeiten von Strukturbrüchen noch sinnvoll?

Thursday Apr 13, 2023

Wir untersuchen, wie sich Strukturbrüche wie Corona und der Ukraine Krieg sowie anhaltende Unsicherheit auf die Prognose makroökonomischer Zielgrößen auswirken. Anlass dafür ist der Financial Times Artikel "CEOs forced to ditch decades of forecasting habits" über Ikea. Wir diskutieren, wie man Makro-Prognosen nutzen kann, um auch in diesen unsicheren Zeiten einen wirtschaftlichen Mehrwert zu erzielen, und welche Rolle Expertise und Plausibilitätschecks bei der Modellierung spielen.
Links:
Financial Times Artikel: CEOs forced to ditch decades of forecasting habits von Anne-Sylvaine Chassany https://www.ft.com/content/456baa69-83df-4c7f-af7b-49e6451a1183
Prophet von Facebook https://facebook.github.io/prophet/

Thursday Mar 30, 2023

#21: Machine Learning Operations (MLOps)

Thursday Mar 30, 2023

Software in Form eines Machine Learning Modells bringt zusätzliche Komplexität mit sich, denn die Algorithmen sind nicht deterministisch, sondern stochastischer Natur. Das bedeutet es braucht Expert*innen, die bei der Entwicklung des Modells beteiligt waren, um es produktiv zu bringen. Wir sprechen über die Anforderungen an MLOps auf dem Weg in die Produktivumgebung: Monitoring, CI/CD, Reusability und Modellentwicklung.
Links:
MLOps: Market Map & Thesis by Rachit Kansal https://medium.com/@rachit.kansal.19/mlops-market-map-thesis-f5e403780953
MLOps Community https://mlops.community/

Thursday Mar 16, 2023

#20: Ist Continuous Integration (CI) ein Muss für Data Scientists?

Thursday Mar 16, 2023

Continuous Integration (CI) ist zwar ein Konzept aus der Softwareentwicklung, aber aus dem Bereich Data Science nicht mehr wegzudenken. Wir diskutieren wie wichtig CI für Data Scientists ist und wie es genutzt werden kann um Data Science Workflows zu verbessern.

Thursday Mar 02, 2023

#19: Data Science und Story Telling

Thursday Mar 02, 2023

Im Anschluss an unsere letzte Episode über Big Data Erfolgsgeschichten, möchten wir heute darüber sprechen, wie man Ergebnisse von Predictive Analytics Projekten richtig kommunizieren kann. Wir diskutieren die Schlüsselelemente einer guten Geschichte und untersuchen, wie man Story Telling mit der Präsentation von objektiven Modellergebnissen zusammen bringen kann. Zum Schluss gibt es noch Tipps, wie Datenvisualisierungen zur Unterstützung einer Erzählung eingesetzt werden können.
Links:
Episode #18: Big Data Erfolgsgeschichten https://inwt.podbean.com/e/18-big-data-erfolgsgeschichten/
Episode #12: Use Case - Luftschadstoffprognose für Berlin https://inwt.podbean.com/e/12-use-case-luftschadstoffprognose-fur-berlin/
Die vorgestellten Konzepte basieren auf dem Buch von Claus Wilke: "Fundamentals of Data Visualization":https://clauswilke.com/dataviz/
Screenshot der Karte: Unterschätzung der Schadstoffbelastung am Passivsammler Hermannplatz https://i.imgur.com/1t75Ryf.png

Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.

Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.

Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.

Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.

Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.