Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber. Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten. Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben. Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt. Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Listen on:

  • Apple Podcasts
  • Podbean App
  • Spotify
  • Amazon Music

Episodes

Thursday Jan 23, 2025

Teil 2 unseres Preisprognose-Experiments für Gebrauchtfahrzeuge: Können Open-Source-LLMs wie Llama 3.1, Mistral und Leo-HessianAI mit GPT-3.5 mithalten? Wir haben fleißig gefinetuned, bis die Motoren qualmten – und es zeigt sich, dass die Unterschiede gar nicht mehr so groß sind. Mit ausreichend vielen Trainingsbeobachtungen nähern sich die Open-Source-Modelle den Ergebnissen von GPT-3.5 an und können es in einzelnen Metriken sogar übertreffen. Für das Finetuning größerer Modelle sind jedoch auch leistungsfähige GPUs notwendig, was die Ressourcenanforderungen deutlich erhöht. In der Folge beleuchten wir, welchen Mehrwert diese Open-Source-LLMs für praxisnahe Use Cases liefern und welche Herausforderungen dabei auftreten.
Zusammenfassung:
Vergleich von OpenAI GPT-3.5 und drei Open-Source-LLMs (Llama 3.1, Mistral 7B, Leo-HessianAI)
Finetuning der Modelle auf lokalen Daten
Ergebnisse: Open-Source-LLMs sind bei größerem Trainingsdatensatz fast so gut wie GPT-3.5
XGBoost hinkt etwas hinterher, da Freitexte hier nicht einbezogen wurden
Wichtige Faktoren: Batchgröße, Trainingsschritte, Speicherbedarf und Nutzung von Lora-Finetuning
Beim Einsatz von Open Source ist mehr Handarbeit nötig, dafür bleibt alles on-premise
OpenAI punktet durch Einfachheit und hohe Qualität ohne großen Datenbedarf
Frameworks wie Huggingface, Mistral Codebase und Torchtune unterstützen das Finetuning
Ausblick: größere LLMs mit Multi-GPU, multimodale Daten und Unsicherheitsquantifizierung
 
***Links***
[Blog] Predictive LLMs: Übertreffen Open-Source-Modelle OpenAI bei Preisprognosen? https://www.inwt-statistics.de/blog/predictive-llms-uebertreffen-os-modelle-openai-bei-preisprognosen
[Podcast] #50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost? https://www.podbean.com/ew/pb-n6wem-165cb2c
[Blog] Predictive LLMs: Kann GPT-3.5 die Prognosen von XGBoost verbessern? https://www.inwt-statistics.de/blog/predictive-llms-kann-gpt-xgboost-prognosen-verbessern
[Podcast] #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage https://www.podbean.com/ew/pb-vw736-15baac0
[Link] Llama-3.1-8B-Instruct auf Huggingface https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct- [Link] Mistral-7B-Instruct-v0.3 auf Huggingface https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3
[Link] Mistral 7B Release Notes https://mistral.ai/news/announcing-mistral-7b/
[Link] leo-hessianai-7b auf Huggingface https://huggingface.co/LeoLM/leo-hessianai-7b
[Link] The Hessian Center for Artificial Intelligence https://hessian.ai/de/
[Docs] LangChain: How to return structured data from a model https://python.langchain.com/docs/how_to/structured_output/#the-with_structured_output-method
[Link] Wie hoch sind die Treibhausgasemissionen pro Person in Deutschland durchschnittlich? https://www.umweltbundesamt.de/service/uba-fragen/wie-hoch-sind-die-treibhausgasemissionen-pro-person#:~:text=Der%20deutsche%20Aussto%C3%9F%20an%20Treibhausgasen,sehr%20gro%C3%9Fe%20Unterschiede%20im%20Konsumniveau.

Thursday Jan 09, 2025

„Data Mining“ – klingt nach Staub und Schaufeln, ist aber der Schlüssel zur Mustererkennung in Daten! Wir diskutieren, warum einfache Methoden oft besser sind als fancy KI-Lösungen, besonders bei niedriger Datenreife. Außerdem: Wie man nachhaltigen Mehrwert schafft, ohne sich in Dashboards zu verlieren, und welche Skills und Tools wirklich zählen. Hilfreich für alle, die effektiv mit Daten arbeiten wollen.
 
Zusammenfassung
Data Mining: Definition und Bedeutung als pragmatischer Ansatz zur Mustererkennung
Herausforderungen: Niedrige Datenreife und der Druck, „fancy“ Methoden einzusetzen
Lösungsansätze: Bewährte Methoden wie Statistik, Visualisierungen und Anomaly Detection
Nachhaltigkeit: Optimierte Prozesse und ressourcenschonende Lösungen als Kernnutzen
Skills und Tools: Analytisches Denken, Statistik, Programmierkenntnisse, sowie Tools aus dem Bereich Business Intelligence und Programmiersprachen wie R & Python
Fehler vermeiden: Datenqualität, Vermeidung von Confirmation Bias und sinnvolle Nutzung von Dashboards
 
***Links***
Prof. Dr. Ana Moya auf LinkedIn: https://www.linkedin.com/in/doc-moya/
International School of Management (ISM) https://en.ism.de/
INFOMOTION GmbH https://www.infomotion.de/
Power BI https://www.microsoft.com/de-de/power-platform/products/power-bi?market=de
Tableau https://www.tableau.com/
Python https://www.python.org/
R https://www.r-project.org/
Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Thursday Dec 19, 2024

Kafka, aber in R? Das geht jetzt! In dieser Folge klären wir, warum Kafka für schnelle Datenströme unverzichtbar ist und warum unser neuer R-Kafka-Client ein Gamechanger ist. Was ist Kafka, wofür braucht man es (oder auch nicht), und wie funktioniert unser Paket? Hört rein und probiert es aus!
 
Zusammenfassung
Apache Kafka als schnelles, ausfallsicheres System für Event-Streaming und Datenströme
Einsatzbereiche: Überall wo Daten fortlaufend und in Echtzeit verarbeitet werden
Unser R Kafka Client ermöglicht nun die direkte Nutzung von Kafka in R, ohne Umweg über Python
Features: Consumer/Producer-Modelle, asynchrone Datenverarbeitung, hohe Performance und Ausfallsicherheit
Ausblick: Veröffentlichung auf CRAN, Admin-Client für Cluster-Management, Blogartikel mit Beispiel (siehe unten in den Links)
Links
Apache Kafka https://kafka.apache.org/
Confluent https://www.confluent.io/
Rcpp (CRAN) https://cran.r-project.org/web/packages/Rcpp/index.html
reticulate (CRAN) https://cran.r-project.org/web/packages/reticulate/index.html
R Paket kafka auf GitHub https://github.com/INWTlab/r-kafka
Blogartikel zum R Paket kafka https://www.inwt-statistics.de/blog/r-paket-kafka
nats https://nats.io/
Azure EventHub https://azure.microsoft.com/de-de/products/event-hubs
Redpanda https://www.redpanda.com/
Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Thursday Dec 05, 2024

Zusammenfassend unsere Must-Haves:
Datenbank / DWH 
Lösung zur Datenvisualisierung
Möglichkeit, unkompliziert zu entwickeln (lokal oder im Web)
Versionskontrolle / CI/CD
Deployment-Lösung
Trennung von Entwicklungs- und Produktivumgebung
Monitoring für Modell & Ressourcen
 
Verwandte Podcast-Episoden
Folge #2: Erfolgsfaktoren für Predictive Analytics Projekte
Folge #5: Data Warehouse vs. Data Lake vs. Data Mesh
Folge #20: Ist Continuous Integration (CI) ein Muss für Data Scientists?
Folge #21: Machine Learning Operations (MLOps)
Folge #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack
Folge #35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida
Folge #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage
Folge #54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?
 
Technologien & Tools
Datenvisualisierung: Azure Databricks, AWS Quicksight, Redash
Entwicklungsumgebung: VSCode, INWT Python IDE V2, Remote Explorer, Pycharm
Versionskontrolle: GitHub, GitLab, Azure DevOps
CI/CD: GitHub Actions, GitLab CI, Jenkins
Deployment: Kubernetes, Docker, Helm, ArgoCD
Experiment-Tracking: MLFlow, DVC, Tensorboard
Monitoring: Prometheus, Grafana, AWS Cloudwatch

Thursday Nov 21, 2024

Die glorreichen Zeiten des Data Scientist scheinen vorbei zu sein – oder doch nicht? Warum stagnieren die Jobangebote? Und wie passt GenAI ins Bild? Wir sprechen über die neuen Herausforderungen am Arbeitsmarkt, was Unternehmen und Jobsuchende jetzt tun sollten, und warum Data Engineers irgendwie sexy, aber nie so richtig hot waren. Spoiler: Flexibilität und Generalismus sehen wir als wichtige Eigenschaften für die Zukunft!
 
***Links***
#4: Job-Profile & Arbeitsmarkt https://www.podbean.com/ew/pb-aurkr-126887d
 https://de.wikipedia.org/wiki/Hype-Zyklus
Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Thursday Nov 07, 2024

Helm auf und los geht’s! In dieser Episode zeigen wir euch wie wir ein Fraud-Detection-Projekt mit komplexen Deployments mithilfe von Kubernetes und Helm in den Griff bekommen haben – Spoiler: Copy-Paste hatte hier keine Chance! ;) Warum Helm ein Gamechanger für eure Kubernetes-Configs sein kann und was es mit diesen ominösen Charts auf sich hat, erfahrt ihr hier. Für alle, die mehr Ordnung im Deployment-Chaos suchen, ist das die perfekte Folge.
 
***Links***
#14: Kubernetes https://www.podbean.com/ew/pb-m5ggz-13454c7
#28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten https://www.podbean.com/ew/pb-we2f3-145e5fe
#38: Im Rennen gegen die Zeit: Echtzeitprognosen mit komplexen statistischen Modellen https://www.podbean.com/ew/pb-u5qsn-1548784
https://helm.sh/
https://kubernetes.io/
https://argo-cd.readthedocs.io/en/stable/
Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Thursday Oct 24, 2024

Dies ist ein Gedankenexperiment, das euch zeigt, wie man mit wenig Budget und minimaler Hardware eine clevere self-service Umgebung bastelt, die auf dem Laptop oder einer günstigen Cloud-Instanz läuft. Wir sprechen darüber wie so ein Stack aussehen kann (Storage Layer, Data Layer, Compute Layer) und welche Anwendungsszenarien es gibt, aber auch wo die Grenzen bei einem solchen Szenario liegen. 
 
***Links***
#52: In-process Datenbanken und das Ende von Big Data https://www.podbean.com/ew/pb-tekgi-16896e4
Engineering Kiosk - #129 Simplify Your Stack: Files statt Datenbanken! https://engineeringkiosk.dev/podcast/episode/129-simplify-your-stack-files-statt-datenbanken/
https://delta.io/
https://ibis-project.org/
https://duckdb.org/

Thursday Oct 10, 2024

In dieser Episode sprechen wir mit Dr. Andreas Kerschbaumer, Umweltexperte beim Berliner Senat, über unsere Luftschadstoffprognose und warum Berlin immer noch dringend sauberere Luft braucht. Andreas erklärt, wie Machine Learning hilft, die Luftverschmutzung vorherzusagen und welche Rolle klassische Methoden (CTMs) dabei spielen. Wir vergleichen den neuen Machine-Learning-Ansatz mit dem traditionellen und diskutieren, welche Vor- und Nachteile sie mit sich bringen. Außerdem verraten Mira und Andreas, was sie in diesem spannenden Projekt gelernt haben.
 
***Links***
Digitale Plattform Stadtverkehr Berlin: https://viz.berlin.de/site/_masterportal/berlin/index.html (für die Prognosen kann oben links Themen > Fachdaten > Umwelt ausgewählt werden)
Episode #12: Use Case - Luftschadstoffprognose für Berlin https://www.podbean.com/ew/pb-j24xm-1321244
Business Case: Customized Stack zur automatisierten Luftschadstoffprognose in Berlin https://www.inwt-statistics.de/blog/business_case_luftschadstoffprognose
 

Thursday Sep 26, 2024

Vor der Bundestagswahl 2017 haben wir begonnen, ein Prognosemodell für den Wahlausgang zu entwickeln – und seitdem ständig verbessert. Heute präsentieren wir täglich aktualisierte Prognosen, die Verzerrungen einzelner Wahlumfragen korrigieren und das Wahlverhalten am Wahltag vorhersagen. Mit bayesianischen Modellen liefern wir Wahrscheinlichkeiten zur Regierungsbeteiligung und anderer Ereignisse und stellen sie auf wer-gewinnt-die-wahl.de bereit. 
 
***Links***
Website: Wer gewinnt die Wahl 2025? https://wer-gewinnt-die-wahl.de/de
Business Case: Bayes'sches Prognosemodell für die Bundestagswahl https://inwt-statistics.de/blog/business_case_wahlprognose
Bundestagswahl 2021: Wie gut waren unsere Wahlprognosen? https://inwt-statistics.de/blog/bundestagswahl-2021-wie-gut-waren-unsere-wahlprognosen
Podcast Learning Bayesian Statistics von Alexandre Andorra: #52 Election forecasting models in Germany, with Marcus Groß (09.12.2021) https://learnbayesstats.com/episode/52-election-forecasting-models-germany-marcus-gross/
Blog: Das Schlechteste an Wahlprognosen: Wie wir mit ihnen umgehen (Stefan Niggemeier, 13.11.2016) https://uebermedien.de/9664/das-schlechteste-an-wahlprognosen-wie-wir-mit-ihnen-umgehen/
fivethirtyeight: https://projects.fivethirtyeight.com/
Wahlrecht.de: https://www.wahlrecht.de/ 

Monday Sep 16, 2024

Warum ist XGBoost seit Jahren das Tool der Wahl, wenn es um tabulare Daten geht? Mira spricht zusammen mit Matthäus Deutsch darüber, warum  XGBoost State of the Art ist und was es so erfolgreich macht. Außerdem: Wie schlägt sich XGBoost im Vergleich zu Deep Learning? Und gibt es überhaupt bessere Alternativen?
**Links**
Kaggle AI Report 2023: https://storage.googleapis.com/kaggle-media/reports/2023_Kaggle_AI_Report.pdf?trk=public_post_comment-text
XGBoost Documentation: https://xgboost.readthedocs.io/en/stable/
Hastie, T.; Tibshirani, R. & Friedman, J. (2009), The elements of statistical learning: data mining, inference and prediction , Springer (ISBN: 0387848576)

Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.

Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.

Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.

Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.

Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Copyright 2024 All rights reserved.

Podcast Powered By Podbean

Version: 20241125