Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber. Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten. Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben. Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt. Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Listen on:

Episodes

45 minutes ago

#98: Risiken bei der Softwareentwicklung mit AI Agents

45 minutes ago

49 min

Sebastian und Liel setzen die Folge #91 zur Zukunft der Softwareentwicklung fort und widmen sich diesmal den Risiken beim Einsatz von AI Agents. Sie ordnen ein, welche Gefahren beim lokalen Arbeiten mit Agents tatsächlich bestehen – von autonom ausgeführten Befehlen mit Datenverlust über Prompt Injection bis zur Weitergabe sensibler Daten an externe Modelle. Im zweiten Teil geht es um konkrete Strategien zur Risikominimierung: durchdachte Berechtigungen, Repository-scoped Tokens, isolierte Workspaces mit Dev-Containern oder Mini-VMs sowie eine bewusste Auswahl der eingesetzten Modelle. Zum Abschluss diskutieren die beiden, wohin sich die Arbeit mit Coding-Agents entwickelt und welche Rolle Reviews und Wartbarkeit dabei spielen. Ein "sicher" gibt es dabei nicht, wohl aber ein "sicherer".

**Zusammenfassung**
AI Agents führen im YOLO-Mode Code direkt auf dem eigenen System aus – Datenverlust durch unbedachte Befehle ist ein reales Risiko.
Prompt Injection kommt über README-Anweisungen, MCP-Server und Webfetch ins System; halluzinierte Library-Namen lassen sich durch Squatting für Schadcode ausnutzen.
Die "lethal trifecta" beschreibt die kritische Kombination aus Zugriff auf private Daten, Verarbeitung nicht vertrauenswürdiger Inhalte und Möglichkeit zur Kommunikation nach außen.
Kompromittierung betrifft Credentials, proprietären Code und personenbezogene Daten – jede Query an ein extern gehostetes Modell verlässt das eigene System.
Default-Konfigurationen (OpenCode, VSCode + GitHub Copilot) sind ein häufiger Stolperstein, da Daten oft standardmäßig zum Training genutzt werden.
Zur Absicherung helfen fein eingestellte Berechtigungen, Repository-scoped Tokens, Provisionierung im Unternehmen und isolierte Workspaces (Dev-Container, VibePod, nono).
Bei der Modellauswahl lohnt der Blick auf Selfhosting sowie europäische bzw. offene Alternativen wie Mistral und das Schweizer Apertus.
Traceability, Live- und Kostenmonitoring werden wichtiger, da Agents Tokenverbrauch und Aktionen kaum noch kontrollierbar machen.

**Links**
#91: Software ohne Entwickler*innen? Wie AI Agents unsere Arbeit neu definieren https://www.podbean.com/ew/pb-2if5e-1a90f94
The lethal trifecta for AI agents: private data, untrusted content, and external communication (Simon Willison): https://simonwillison.net/2025/Jun/16/the-lethal-trifecta/
The Vulnerable MCP Project (Übersicht zu MCP-Schwachstellen): https://vulnerablemcp.info/index.html
Cory Doctorows Blog (Quelle zum Halluzinations-Beispiel): https://pluralistic.net
VibePod CLI - The zero-config CLI for running AI coding agents locally https://vibepod.dev/
nono - Run AI agents in a zero-latency sandbox in seconds, with zero setup. https://nono.sh/
Docker Sandboxes https://docs.docker.com/ai/sandboxes/
Agentlytics https://agentlytics.io/
Apertus, das offene Schweizer Sprachmodell (Hugging Face): https://huggingface.co/collections/swiss-ai/apertus-llm
Mistral (europäischer Modellanbieter): https://mistral.ai
📬 Fragen, Feedback oder Themenwünsche?Schreibt uns gern an: podcast@inwt-statistics.de

Jul 2, 2026

#97: Die Güte von Gen-AI-Projekten bewerten mit Tobias Sterbak

Jul 2, 2026

47 min

Wie misst man die Qualität von Gen-AI-Projekten, wenn der Output selten eindeutig richtig oder falsch ist und ein Ground Truth oft fehlt? Auf Anregung unserer Hörerin Andrea sprechen Mira und Tobias darüber, warum die Evaluation generativer Anwendungen ein Umdenken gegenüber klassischen ML-Projekten erfordert. Sie stellen verschiedene Ansätze vor – von klassischem Testen über Goldstandard-Datensätze und "LLM as a Judge" bis zu Similarity-Metriken und User Testing – und ordnen deren Stärken und Schwächen ein. Außerdem geht es um den Umgang mit Spezial- und Off-Topic-Fällen, Manipulationsversuche, Red-Teaming und die Frage, wie groß ein Goldstandard eigentlich sein sollte. Das Fazit: Es gibt keine Faustformel, dafür rücken Domänenverständnis, Produktfokus und Risikomanagement stärker in den Mittelpunkt.

**Zusammenfassung**
Umdenken nötig: Bei Gen-AI ist der Output oft nicht klar richtig oder falsch, was klassische Evaluationslogik an ihre Grenzen bringt
Frühe Validierung mit Endnutzenden ist sinnvoll und oft erforderlich, weil man schnell etwas Vorzeigbares hat
Klassisches Testen funktioniert weiterhin, wo es fixe Metriken oder einen Goldstandard gibt; ein schrittweiser oder verdeckter Rollout liefert früh Ergebnisse
LLM as a Judge: gut automatisierbar, aber korreliert oft schlecht mit menschlicher Einschätzung; ein Ensemble mehrerer Modelle kann helfen
Similarity-Metriken wie Cosine Similarity eignen sich als günstiger Vorfilter, bevor der teure LLM-Judge läuft
User Testing über Testmatrix, Testszenarien und Testpersonas ist aussagekräftig, aber aufwändig und bei jeder Änderung erneut nötig
Spezialfälle absichern: Umgang mit Off-Topic-, Nonsense- und Manipulationsversuchen, Red-Teaming und ein kleiner Standard-Datensatz als Sanity-Check
Fazit: keine Faustformel – das Skillset wird breiter, Domänenverständnis und Produktfokus wichtiger, Risikomanagement rückt in den Vordergrund
**Links**
#47: Von Prognosen und Prompts: Data Science trifft generative KI mit Tobias Sterbak https://www.podbean.com/ew/pb-dkyex-1613842
Tobias Sterbak auf LinkedIn: https://www.linkedin.com/in/tobias-sterbak/

Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an: podcast@inwt-statistics.de

Jun 18, 2026

#96: Queer Data: Wie erfasst, bereinigt und analysiert man sensible Daten?

Jun 18, 2026

32 min

Pünktlich zum Pride Month widmen sich Mira und Liel der Frage, was bei der Arbeit mit sensiblen personenbezogenen Daten am Beispiel queerer Daten zu beachten ist. Sie gehen die drei Phasen Datenerfassung, -bereinigung und -analyse durch und zeigen, wie schon die Wahl von Kategorien die Realität beeinflusst und wie sich Diskriminierung in Daten und Algorithmen fortschreibt. Ein Schwerpunkt liegt auf dem Umgang mit sehr kleinen Gruppen, für die sich statistisch oft wenig ableiten lässt, und auf möglichen Lösungen wie Oversampling oder qualitativen Methoden. Die Episode macht deutlich, dass es keine einzelne richtige Lösung gibt, sondern bewusste Entscheidungen und Mitdenken gefragt sind. Die besprochenen Überlegungen gelten über Queerness hinaus auch für andere Kategorien sozialer Ungleichheit und das Thema Intersektionalität.

**Zusammenfassung**
Begriffsklärung: Was "queer" bedeutet, von der ursprünglichen Beleidigung zur positiven Selbstbezeichnung, und der Bezug zu LGBTQIA+
Datenerfassung: Was man erfasst, hängt vom Kontext ab (Sex in der Medizin, Gender beim Verhalten, sexuelle Orientierung im Marketing)
Kategorien sind nicht neutral: Sie prägen, wie Menschen sich wahrnehmen, wie Umfragen ankommen und ob man Diskriminierung überhaupt messen kann
Repräsentativität: Wie prüft man sie, wenn die Gruppengröße unbekannt ist – etwa über bayesianische Ansätze mit Annahmen, die durch Daten aktualisiert werden
Datenbereinigung: Schon wenige Fehleingaben verzerren kleine Gruppen stark, wie das Beispiel der US-Zensusdaten zeigt
Umgang mit kleinen Gruppen: Optionen sind große Datenmengen, Oversampling, qualitative Methoden oder zumindest transparentes Berichten
Analyse: Algorithmen reproduzieren und skalieren bestehende Biases und sind nicht automatisch neutral; das Weglassen einzelner Merkmale löst das Problem nicht (Proxy-Variablen)
Fazit: Es gibt keine technische Patentlösung gegen Diskriminierung – entscheidend sind bewusste Entscheidungen, Mitdenken und der Blick auf Intersektionalität

**Links**
Buch "Queer Data" von Kevin Guyan: https://kevinguyan.com/queer-data/
Buch "Rainbow Trap" von Kevin Guyan: https://kevinguyan.com/rainbow-trap/
Buch "Data Feminism" von Catherine D'Ignazio und Lauren F. Klein (MIT Press, frei verfügbar): https://data-feminism.mitpress.mit.edu/
Episode #40: Sonderfolge: Frauen in Data Science und Tech mit Catrin & Isa von Mind the Tech https://www.podbean.com/eas/pb-ypy32-15747e6
Episode #93: Bayesianische Statistik: Vorwissen und Daten kombinieren https://www.podbean.com/eas/pb-crgji-1ab8218
📬 Fragen, Feedback oder Themenwünsche?Schreibt uns gern an: podcast@inwt-statistics.de

Jun 4, 2026

#95: GitOps: Deployments mit Ruhepuls

Jun 4, 2026

27 min

GitOps ist ein DevOps-Ansatz, bei dem der Betrieb von Services als Code in Git abgelegt und versioniert wird, statt Deployments manuell über Oberflächen zusammenzuklicken. In dieser Episode erklären Mira und Andreas, was GitOps ausmacht, wie sich der deklarative Ansatz vom klassischen imperativen Vorgehen unterscheidet und wo die Abgrenzung zu Infrastructure as Code verläuft. Sie sprechen über die Vorteile – etwa Nachvollziehbarkeit, Versionskontrolle, Automatisierung und geringere Fehleranfälligkeit – ebenso wie über Herausforderungen rund um Secrets-Management und das nötige Umdenken. Außerdem ordnen sie ein, wann sich der Einsatz lohnt und wann manuelles Vorgehen sinnvoller bleibt. Den Abschluss bildet ein Hands-on-Teil mit konkreten Einstiegsschritten und Werkzeugen wie ArgoCD.

**Zusammenfassung**
Was GitOps ist: Betrieb von Services als versionierter Code in Git, inklusive Konfiguration und laufender Versionen
Beispiel API-Deployment: früher alles in der Pipeline, heute ein separates Repo, das den gewünschten Zustand beschreibt und von Tools wie ArgoCD mit dem Cluster abgeglichen wird
Abgrenzung zu Infrastructure as Code: GitOps fokussiert die laufenden Services statt der Infrastruktur und gleicht Änderungen aktiv und kontinuierlich an
Vorteile: Dokumentation, Rollback per Versionskontrolle, Automatisierung, weniger Fehler, Review-Möglichkeit und gemeinsame Verwaltung mehrerer Service-Versionen
Herausforderungen: Umstieg von imperativ auf deklarativ, schwierigeres Debugging, alles muss in Git liegen, Secrets brauchen ein zusätzliches Tool
Wann sinnvoll: ab MVP fast immer; bei kurzlebigen PoCs ruhig manuell oder per Pipeline
Einstieg: mit neueren, einfacheren Projekten starten, ArgoCD installieren und schrittweise komplexer werden (dev/prod, mehrere Services)
Fazit: kurze Einarbeitung, dann lohnt es sich – inzwischen etablierter Standard und "Deployments mit Ruhepuls"
**Links**
ArgoCD: https://argo-cd.readthedocs.io
FluxCD: https://fluxcd.io
ArgoCD Image Updater: https://argocd-image-updater.readthedocs.io
Sealed Secrets: https://github.com/bitnami-labs/sealed-secrets
External Secrets Operator: https://external-secrets.io
Helm: https://helm.sh
Kustomize: https://kustomize.io
Kubernetes: https://kubernetes.io
📬 Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an: podcast@inwt-statistics.de

May 21, 2026

#94: [PAIQ4] Predictive AI Quarterly

May 21, 2026

37 min

In dieser Ausgabe des Predictive AI Quarterly geben Till und Amit einen Überblick über die wichtigsten Entwicklungen des letzten Quartals im Bereich Predictive AI. Themen sind unter anderem Hyper-Agents von Meta, praktische Herausforderungen beim Einsatz von Coding-Agents sowie neue Foundation-Modelle für tabellarische Daten wie TabImpute und TabICL v2. Im Praxisteil teilen die beiden ihre Erfahrungen aus einem Experiment zur Preisprognose von Autos, bei dem GPT-4o mit Bildern und Freitext gegen TabPFN antritt. Im Zentrum stehen dabei der Mehrwert unstrukturierter Daten, Fragen der Generalisierbarkeit und der Tradeoff zwischen Erklärbarkeit und Prognosegüte.

**Zusammenfassung**
Hyper-Agents von Meta: selbstevaluierende Agenten mit Potenzial für schnelleren Fortschritt, aber auch Risiken durch fehlende Kontrolle und verstärkte Biases
Praktischer Einsatz von Coding-Agents: Subscriptions, Sandboxing, Audit Logs und Ausschluss kritischer Artefakte als Voraussetzungen
Erfahrungen mit dem GitHub Cloud Agent, insbesondere bei der Überarbeitung bestehenden Codes
TabImpute als neues Foundation-Modell für Imputation auf Basis von TabPFN inklusive eigenem Benchmark
TabICL v2 als offen lizenzierte Alternative zu TabPFN mit schnellerer Inferenz
Praxis-Experiment zur Preisprognose von Autos: GPT-4o mit Bildern erzielt die besten Ergebnisse, deutlich vor TabPFN
Generalisierbarkeit bestätigt durch 30-fache Kreuzvalidierung mit einem aus Bildern erzeugten Score-Feature
Tradeoff zwischen Erklärbarkeit (Feature-Generierung) und Prognosegüte (Finetuning) als zentrale Erkenntnis

**Links**
Predictive LLMs: Die Rolle multimodaler Daten bei der Preisprognose https://www.inwt-statistics.de/blog/predicitve-llms-rolle-multimodaler-daten
HyperAgents (Zhang et al., 2026): Paper unter https://arxiv.org/abs/2603.19461, Code unter https://github.com/facebookresearch/Hyperagents
Feitelberg, J., Saha, D., Choi, K., Ahmad, Z., Agarwal, A. & Dwivedi, R.: TabImpute: Universal Zero-Shot Imputation for Tabular Data. https://arxiv.org/pdf/2510.02625
TabICL GitHub Repo https://github.com/soda-inria/tabicl
OpenAI Developers: Vision fine-tuning https://developers.openai.com/api/docs/guides/vision-fine-tuning
📬 Fragen, Feedback oder Themenwünsche?Schreibt uns gern an: podcast@inwt-statistics.de

May 7, 2026

#93: Bayesianische Statistik: Vorwissen und Daten kombinieren

May 7, 2026

33 min

In dieser Episode sprechen Mira und Amit über die Grundlagen der bayesianischen Statistik und zeigen anhand der Wahlprognose für die Bundestagswahl, wie sich Vorwissen und neue Daten zu einer aussagekräftigen Posterior-Verteilung kombinieren lassen. Sie erklären die zentralen Begriffe Prior, Likelihood und Posterior und ordnen ein, wie sich Kredibilitätsintervalle von klassischen Konfidenzintervallen unterscheiden. Außerdem gehen sie auf praktische Anwendungsfälle wie A/B-Testing ein und diskutieren, warum der bayesianische Ansatz trotz seiner Vorteile nicht immer die erste Wahl ist.
**Zusammenfassung**
Einstiegsbeispiel Wahlprognose: Stichprobenunsicherheit trifft auf Vorwissen über realistische Stimmanteile
Bayes-Theorem als Grundlage: Posterior ist proportional zu Likelihood mal Prior
Prior-Verteilungen: informative Priors aus Vorwissen vs. nicht-informative Priors
Interpretation der Posterior: Erwartungswert, Wahrscheinlichkeit für Effekte über einem Schwellenwert, Kredibilitätsintervalle
Unterschied zur frequentistischen Statistik: p-Werte und Konfidenzintervalle vs. intuitiv interpretierbare Wahrscheinlichkeitsaussagen
Praxisbeispiele: A/B-Testing mit Vorwissen aus früheren Tests, Robustheitsprüfungen, Einsatz bei Google
Vorteile: intuitive Interpretation, Nutzung von Vorwissen, sinnvolle Ergebnisse auch bei kleinen Stichproben
Nachteile: hoher Rechenaufwand durch Monte-Carlo-Simulationen, geringere Verbreitung, nicht immer existiert ein sinnvoller Prior
**Links**
#56: Unsere Bundestagswahl-Prognose: Wer gewinnt die Wahl 2025? https://www.podbean.com/ew/pb-hwgnd-16e446e
#26: A/B-Testing: Erkenntnisse statt Bauchgefühl https://www.podbean.com/ew/pb-6fzpj-143cfb1
📬 Fragen, Feedback oder Themenwünsche?Schreibt uns gern an: podcast@inwt-statistics.de

Apr 23, 2026

#92: Anomaly Detection von Produktbildern mit ClickHouse

Apr 23, 2026

46 min

In dieser Episode geht es um die Anomaly Detection von Produktbildern in einem realen Produktions-Use-Case – von der Problemstellung bis zur Umsetzung in ClickHouse. Wir zeigen, wie sich fehlerhafte Produkterkennungen mithilfe von Embeddings und Distanzmaßen identifizieren lassen, ohne auf aufwendige gelabelte Daten angewiesen zu sein. Der Fokus liegt auf einer pragmatischen, performanten Lösung direkt in der ClickHouse-Datenbank, die Anomalien in Millisekunden erkennt und gleichzeitig die Datenqualität für das Modelltraining verbessert. Außerdem diskutieren wir Trade-offs zwischen Einfachheit, Performance und Entwicklungsaufwand sowie Learnings aus dem Projekt.

**Zusammenfassung**
Use Case: Automatische Produkterkennung auf Basis von Videostreams mit Fehlerquote (~ 5%)
Problem: Falsche Zuordnungen durch Störkörper, Überlagerungen und ungünstige Perspektiven
Ziel: Identifikation unsicherer Vorhersagen zur manuellen Prüfung und sauberen Trainingsdaten
Ansatz: Unsupervised Anomaly Detection mittels Embeddings und Distanz zum Clusterzentrum
Methode: K-Means-Logik – große Distanz --> geringe Zuordnungs-Sicherheit
Threshold: 2 x Standardabweichung identifiziert ~ 90% der Anomalien (bewusster Trade-off)
Umsetzung: Echtzeit-Berechnung direkt in ClickHouse über Materialized Views
Vorteil: Keine zusätzliche Infrastruktur (z.B. Kafka), sehr geringe Latenz (< 1 Sekunde)
Nachteil: Trennung zwischen Entwicklung (Python) und Produktion (SQL/ClickHouse)

**Links**
#54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion? https://www.podbean.com/ew/pb-hhhwu-16b91f3
ClickHouse https://clickhouse.com/
ClickHouse Docs: Can you use ClickHouse for vector search? https://clickhouse.com/docs/knowledgebase/vector-search
📬 Fragen, Feedback oder Themenwünsche?Schreibt uns gern an: podcast@inwt-statistics.de

Apr 9, 2026

#91: Software ohne Entwickler*innen? Wie AI Agents unsere Arbeit neu definieren

Apr 9, 2026

46 min

Agentic AI verändert die Art, wie Software entsteht und stellt bestehende SaaS- und Subscription-Modelle zunehmend infrage. Im Fokus stehen AI-Agents, die in Think-Act-Observe-Loops eigenständig handeln und Entwicklungsprozesse automatisieren. Besonders im Data-Science-Umfeld zeigen sich Chancen im Prototyping, aber auch Herausforderungen durch langsame Tests, komplexe Datenpipelines und fehlende Qualitätsmetriken. Entscheidend für den erfolgreichen Einsatz sind klare Aufgabenabgrenzung, kleine Iterationen und robuste Guardrails wie Tests und Linter. Gleichzeitig verschieben sich Rollenprofile hin zu mehr konzeptioneller Arbeit, während Fragen zu Sicherheit, Souveränität und langfristiger Wartbarkeit offen bleiben.

**Zusammenfassung**
SaaS- und Subscription-Modelle geraten durch AI-getriebene Eigenentwicklung unter Druck
Evolution: Chat --> Copilot --> Agentic AI mit autonomen Fähigkeiten
AI-Agents arbeiten in Think-Act-Observe-Loops und können aktiv handeln
Aktuelle Tools vor allem in Terminal-Umgebungen (CLI-basiert)
Kleine, klar definierte Aufgaben erhöhen Erfolgswahrscheinlichkeit
Guardrails (Tests, Linter, Typisierung) sind essenziell für Qualität
Prototyping funktioniert gut, produktiver Einsatz noch eingeschränkt
Data Science leidet unter langsamen Tests und langen Iterationszyklen
Custom Stacks aktuell im Vorteil gegenüber Plattformlösungen
Offene Themen: Sicherheit, Datenzugriff, Abhängigkeit von LLM-Anbietern

**Links**
#29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack https://www.podbean.com/ew/pb-pep8h-147029f
The Pragmatic Engineer: When AI writes almost all code, what happens to software engineering? by Gergely Orosz https://newsletter.pragmaticengineer.com/p/when-ai-writes-almost-all-code-what
Conductor Extension for Gemini CLI https://github.com/gemini-cli-extensions/conductor
📬 Fragen, Feedback oder Themenwünsche?Schreibt uns gern an: podcast@inwt-statistics.de

Mar 26, 2026

#90: Demand Forecasting bei Krombacher – Mit Dr. Max Schüssler

Mar 26, 2026

45 min

In dieser Episode sprechen wir mit Max, Team Lead Data Science bei der Krombacher Brauerei, über Demand Forecasting in der Konsumgüterindustrie. Gemeinsam beleuchten wir, wie Krombacher die tägliche Nachfrageprognose für Bier und weitere Produkte modelliert, von Vorbestellungen über Feature Engineering bis hin zu Gauß-Prozess-Modellen. Außerdem geht es um Modellgüte, den Umgang mit Corona-Effekten, Unsicherheitsintervalle und die Bedeutung von Domänenwissen. Ein weiterer Schwerpunkt liegt auf der Infrastruktur: vom Custom-Stack auf AWS hin zu einer skalierbaren Databricks-Plattform.
**Zusammenfassung**
Ziel: Kurzfristige Prognose der täglichen Auslieferungsmenge (Hektoliter) für die nächsten Werktage
Starker Einfluss von Vorbestellungen, ergänzt durch Features wie Arbeitsstunden-Abstand, Wochentag und Öffnungszeiten
Einsatz von Gauß-Prozess-Modellen für nichtlineare Zusammenhänge und perspektivisch Unsicherheitsintervalle
Sliding Window mit 365 Tagen Trainingsdaten und täglichem Retraining
Benchmark: < 10 % MAPE erreicht für bis zu fünf Werktage im Voraus
Corona-Effekte über Dummy-Variablen berücksichtigt, besonders relevant für Gastronomie-Fässer
Wechsel von AWS Custom Stack (SageMaker, MLflow, API) zu Databricks zur besseren Skalierbarkeit und Wartbarkeit
Zentrale Learnings: Domänenwissen > Modellkomplexität, Use Case klar definieren, Datenqualität als Fundament
**Links**
Krombacher Brauerei https://www.krombacher.de/
Dr. Max Schüssler auf LinkedIn https://www.linkedin.com/in/dr-max-schuessler/
databricks https://www.databricks.com/
#88: Anomalie-Erkennung im Loyalty-Programm bei Krombacher – Mit Fabian Wörenkämper https://www.podbean.com/ew/pb-apyrq-1a577b8
#29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack https://www.podbean.com/ew/pb-pep8h-147029f
ML Tutorial: Gaussian Processes (Richard Turner) auf YouTube https://www.youtube.com/watch?v=92-98SYOdlY
📬 Fragen, Feedback oder Themenwünsche?Schreibt uns gern an: podcast@inwt-statistics.de

Mar 12, 2026

#89: ROC around the clock – Alles rund um Gütemaße für Klassifikationsmodelle

Mar 12, 2026

36 min

In dieser Episode des Data Science Deep Dive sprechen Mira und Amit über Modellgütemaße für binäre und kategoriale Zielvariablen. Sie erklären zentrale Kennzahlen wie Accuracy, Precision, Recall, F1-Score, AUC und Log Loss und zeigen, welche Vor- und Nachteile diese im praktischen Einsatz haben. Dabei geht es auch um typische Herausforderungen, etwa bei unbalancierten Daten oder der Wahl des richtigen Schwellenwerts. Anhand von Beispielen aus Betrugserkennung, Medizin und Spam-Filtering wird deutlich, warum die Wahl des passenden Gütemaßes immer vom konkreten Use Case abhängt. Ergänzend geben sie Tipps zur Interpretation von Modellergebnissen und zur Auswahl eines geeigneten Hauptgütemaßes.
**Zusammenfassung**
Überblick über Modellgütemaße für binäre und kategoriale Klassifikationsprobleme
Einordnung: Klassifikation basiert meist auf Scores bzw. Wahrscheinlichkeiten und einem gewählten Schwellenwert
Konfusionsmatrix als Grundlage zur Berechnung vieler Klassifikationsmetriken (TP, TN, FP, FN)
Accuracy als einfache Kennzahl – jedoch problematisch bei stark unbalancierten Datensätzen
Precision, Recall und Spezifität zur Bewertung verschiedener Fehlertypen und deren Kosten
F1-Score als harmonisches Mittel von Precision und Recall, häufiges Hauptmaß bei unbalancierten Daten
AUC als schwellenwertunabhängige Bewertung der Trennfähigkeit eines Modells
Log Loss zur Bewertung der vorhergesagten Wahrscheinlichkeiten und als häufige Loss-Funktion beim Modelltraining
Praktische Tipps: Wahl des Thresholds, Nutzung von Benchmarks, Analyse von Subgruppen und ggf. Rekalibrierung von Wahrscheinlichkeiten
**Links**
#83: Wie gut ist gut genug? Modellgütemaße richtig verstehen https://www.podbean.com/ew/pb-8q2a8-19a0252
Wikipedia – Confusion Matrix: https://en.wikipedia.org/wiki/Confusion_matrix
Wikipedia – Precision und Recall: https://en.wikipedia.org/wiki/Precision_and_recall
Wikipedia – Receiver Operating Characteristic (ROC) / AUC: https://en.wikipedia.org/wiki/Receiver_operating_characteristic
Wikipedia – Cross Entropy / Log Loss: https://en.wikipedia.org/wiki/Cross_entropy
Scikit-learn Guide zu Klassifikationsmetriken: https://scikit-learn.org/stable/modules/model_evaluation.html#classification-metrics
📬 Fragen, Feedback oder Themenwünsche?Schreibt uns gern an: podcast@inwt-statistics.de

Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.

Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.

Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.

Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.

Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.