Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber. Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten. Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben. Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt. Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Listen on:

  • Apple Podcasts
  • Podbean App
  • Spotify
  • Amazon Music

Episodes

Thursday Nov 07, 2024

Helm auf und los geht’s! In dieser Episode zeigen wir euch wie wir ein Fraud-Detection-Projekt mit komplexen Deployments mithilfe von Kubernetes und Helm in den Griff bekommen haben – Spoiler: Copy-Paste hatte hier keine Chance! ;) Warum Helm ein Gamechanger für eure Kubernetes-Configs sein kann und was es mit diesen ominösen Charts auf sich hat, erfahrt ihr hier. Für alle, die mehr Ordnung im Deployment-Chaos suchen, ist das die perfekte Folge.
 
***Links***
#14: Kubernetes https://www.podbean.com/ew/pb-m5ggz-13454c7
#28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten https://www.podbean.com/ew/pb-we2f3-145e5fe
#38: Im Rennen gegen die Zeit: Echtzeitprognosen mit komplexen statistischen Modellen https://www.podbean.com/ew/pb-u5qsn-1548784
https://helm.sh/
https://kubernetes.io/
https://argo-cd.readthedocs.io/en/stable/
Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Thursday Oct 24, 2024

Dies ist ein Gedankenexperiment, das euch zeigt, wie man mit wenig Budget und minimaler Hardware eine clevere self-service Umgebung bastelt, die auf dem Laptop oder einer günstigen Cloud-Instanz läuft. Wir sprechen darüber wie so ein Stack aussehen kann (Storage Layer, Data Layer, Compute Layer) und welche Anwendungsszenarien es gibt, aber auch wo die Grenzen bei einem solchen Szenario liegen. 
 
***Links***
#52: In-process Datenbanken und das Ende von Big Data https://www.podbean.com/ew/pb-tekgi-16896e4
Engineering Kiosk - #129 Simplify Your Stack: Files statt Datenbanken! https://engineeringkiosk.dev/podcast/episode/129-simplify-your-stack-files-statt-datenbanken/
https://delta.io/
https://ibis-project.org/
https://duckdb.org/

Thursday Oct 10, 2024

In dieser Episode sprechen wir mit Dr. Andreas Kerschbaumer, Umweltexperte beim Berliner Senat, über unsere Luftschadstoffprognose und warum Berlin immer noch dringend sauberere Luft braucht. Andreas erklärt, wie Machine Learning hilft, die Luftverschmutzung vorherzusagen und welche Rolle klassische Methoden (CTMs) dabei spielen. Wir vergleichen den neuen Machine-Learning-Ansatz mit dem traditionellen und diskutieren, welche Vor- und Nachteile sie mit sich bringen. Außerdem verraten Mira und Andreas, was sie in diesem spannenden Projekt gelernt haben.
 
***Links***
Digitale Plattform Stadtverkehr Berlin: https://viz.berlin.de/site/_masterportal/berlin/index.html (für die Prognosen kann oben links Themen > Fachdaten > Umwelt ausgewählt werden)
Episode #12: Use Case - Luftschadstoffprognose für Berlin https://www.podbean.com/ew/pb-j24xm-1321244
Business Case: Customized Stack zur automatisierten Luftschadstoffprognose in Berlin https://www.inwt-statistics.de/blog/business_case_luftschadstoffprognose
 

Thursday Sep 26, 2024

Vor der Bundestagswahl 2017 haben wir begonnen, ein Prognosemodell für den Wahlausgang zu entwickeln – und seitdem ständig verbessert. Heute präsentieren wir täglich aktualisierte Prognosen, die Verzerrungen einzelner Wahlumfragen korrigieren und das Wahlverhalten am Wahltag vorhersagen. Mit bayesianischen Modellen liefern wir Wahrscheinlichkeiten zur Regierungsbeteiligung und anderer Ereignisse und stellen sie auf wer-gewinnt-die-wahl.de bereit. 
 
***Links***
Website: Wer gewinnt die Wahl 2025? https://wer-gewinnt-die-wahl.de/de
Business Case: Bayes'sches Prognosemodell für die Bundestagswahl https://inwt-statistics.de/blog/business_case_wahlprognose
Bundestagswahl 2021: Wie gut waren unsere Wahlprognosen? https://inwt-statistics.de/blog/bundestagswahl-2021-wie-gut-waren-unsere-wahlprognosen
Podcast Learning Bayesian Statistics von Alexandre Andorra: #52 Election forecasting models in Germany, with Marcus Groß (09.12.2021) https://learnbayesstats.com/episode/52-election-forecasting-models-germany-marcus-gross/
Blog: Das Schlechteste an Wahlprognosen: Wie wir mit ihnen umgehen (Stefan Niggemeier, 13.11.2016) https://uebermedien.de/9664/das-schlechteste-an-wahlprognosen-wie-wir-mit-ihnen-umgehen/
fivethirtyeight: https://projects.fivethirtyeight.com/
Wahlrecht.de: https://www.wahlrecht.de/ 

Monday Sep 16, 2024

Warum ist XGBoost seit Jahren das Tool der Wahl, wenn es um tabulare Daten geht? Mira spricht zusammen mit Matthäus Deutsch darüber, warum  XGBoost State of the Art ist und was es so erfolgreich macht. Außerdem: Wie schlägt sich XGBoost im Vergleich zu Deep Learning? Und gibt es überhaupt bessere Alternativen?
**Links**
Kaggle AI Report 2023: https://storage.googleapis.com/kaggle-media/reports/2023_Kaggle_AI_Report.pdf?trk=public_post_comment-text
XGBoost Documentation: https://xgboost.readthedocs.io/en/stable/
Hastie, T.; Tibshirani, R. & Friedman, J. (2009), The elements of statistical learning: data mining, inference and prediction , Springer (ISBN: 0387848576)

Thursday Aug 29, 2024

Online vs. Offline Serving – welcher Ansatz ist besser? Wir besprechen, wie du dein Modell erfolgreich in die Produktion bringst und eine passende Datenschnittstelle deployst. Dazu gibt’s Tipps zu den Tools, die uns dabei helfen, wie FastAPI, Docker und Kubernetes. Außerdem erfährst du, worauf du bei der Automatisierung und beim Handling vieler Modelle achten solltest.
**Links**
Buch: Designing Machine Learning Systems by Chip Huyen https://www.oreilly.com/library/view/designing-machine-learning/9781098107956/
Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Thursday Aug 15, 2024

In dieser Episode von Data Science Deep Dive sprechen Mira und Wolf-Gideon über das Agile Fluency Model und dessen Bedeutung im Data-Science-Kontext. Im Fokus stehen die verschiedenen Stufen der Agilität sowie die damit verbundenen Vorteile und notwendigen Investitionen. Wolf-Gideon erklärt, wie man den optimalen Agilitätsgrad für ein Team ermittelt und welche Praktiken dabei relevant sind. 
 
***Links***Buch von Henning Wolf und Wolf-Gideon Bleek (2010): Agile Softwareentwicklung: Werte, Konzepte und Methoden (ISBN: 978-3-89864-701-4)
it-agile Webseite https://www.it-agile.de/
Mehr Infos zu Wolf-Gideon Bleek auf der Seite von it-agile: https://www.it-agile.de/ueber-it-agile/das-team/dr-wolf-gideon-bleek/
Manifest für Agile Softwareentwicklung https://agilemanifesto.org/iso/de/manifesto.html
Agile Fluency Project (EN) https://www.agilefluency.org/
Artikel: The Agile Fluency Model - A Brief Guide to Success with Agile von James Shore & Diana Larsen (EN) https://martinfowler.com/articles/agileFluency.html
Buch: Company-wide Agility with Beyond Budgeting, Open Space & Sociocracy von Jutta Eckstein & John Buck https://www.agilebossanova.com/
Feedback, Fragen oder Themenwünsche? Schreib uns gern an podcast@inwt-statistics.de

Thursday Aug 01, 2024

In dieser Episode sprechen wir über die in-process Datenbank DuckDB, die im Juni Version 1.0.0 erreicht hat und einen innovativen Ansatz verfolgt. DuckDB wird direkt aus dem Code heraus gestartet und benötigt keine Berechtigungen oder User-Management, was an SQlite erinnert. Außerdem beleuchten wir die These, dass die "Big Data" Ära vorbei ist, warum das so ist und was das eigentlich mit DuckDB zu tun hat. 
 
***Links***
DuckDB: https://duckdb.org/
MotherDB: https://motherduck.com/
Blog: Big Data is Dead by Jordan Tigani https://motherduck.com/blog/big-data-is-dead/
Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Thursday Jul 18, 2024

Data Science entwickelt sich ständig und schnell weiter, was kontinuierliche Weiterbildung unerlässlich macht. In dieser Episode diskutieren wir, wie Arbeitgeber*innen ihre Mitarbeitenden unterstützen können und welche organisatorischen und projektbezogenen Formate sich für uns als effektiv erwiesen haben. Zudem sprechen wir über private Fortbildungsmaßnahmen und geben Tipps zur Auswahl geeigneter Kurse und Konferenzen.
***Links***
Data Culture Podcast von BARC (deutsch): https://barc.com/de/the-data-culture-podcast/
The MLOps Podcast (english): https://podcast.mlops.community/
Practical AI (english): https://changelog.com/practicalai
Software Engineering Radio Podcast (english): https://se-radio.net/
Data Engineering Podcast (english): https://www.dataengineeringpodcast.com/
Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Thursday Jul 11, 2024

Ab der nächsten Episode ist "In Numbers We Trust - Der Data Science Podcast" Geschichte. Wir benennen unseren Podcast um in "Data Science Deep Dive". Aber keine Sorge, ansonsten wird sich nichts ändern. Auf die nächsten 50 Episoden!
Vielen Dank an alle treuen Hörer*innen und herzlich willkommen an alle, die neu dabei sind.
Wir sind INWT und wir machen Data Science, von der ersten Idee bis zum fertigen Produkt, und in diesem Podcast sprechen wir darüber. Es ist unser Anspruch, Data Science-Themen tiefgehend zu besprechen und praxisorientiert zu vermitteln. Wir sprechen über alles, was wir spannend finden, mit Leuten, die wir kennen und mögen.
Wir freuen uns, wenn ihr auch beim Data Science Deep Dive mit dabei seid!
Und wie immer könnt ihr eure Fragen, Anmerkungen und Themenwünsche gern an podcast@inwt-statistics.de schreiben.

Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.

Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.

Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.

Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.

Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Copyright 2024 All rights reserved.

Podcast Powered By Podbean

Version: 20240731