Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber. Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten. Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben. Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt. Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Listen on:

  • Apple Podcasts
  • Podbean App
  • Spotify
  • Amazon Music

Episodes

Thursday Aug 15, 2024

In dieser Episode von Data Science Deep Dive sprechen Mira und Wolf-Gideon über das Agile Fluency Model und dessen Bedeutung im Data-Science-Kontext. Im Fokus stehen die verschiedenen Stufen der Agilität sowie die damit verbundenen Vorteile und notwendigen Investitionen. Wolf-Gideon erklärt, wie man den optimalen Agilitätsgrad für ein Team ermittelt und welche Praktiken dabei relevant sind. 
 
***Links***Buch von Henning Wolf und Wolf-Gideon Bleek (2010): Agile Softwareentwicklung: Werte, Konzepte und Methoden (ISBN: 978-3-89864-701-4)
it-agile Webseite https://www.it-agile.de/
Mehr Infos zu Wolf-Gideon Bleek auf der Seite von it-agile: https://www.it-agile.de/ueber-it-agile/das-team/dr-wolf-gideon-bleek/
Manifest für Agile Softwareentwicklung https://agilemanifesto.org/iso/de/manifesto.html
Agile Fluency Project (EN) https://www.agilefluency.org/
Artikel: The Agile Fluency Model - A Brief Guide to Success with Agile von James Shore & Diana Larsen (EN) https://martinfowler.com/articles/agileFluency.html
Buch: Company-wide Agility with Beyond Budgeting, Open Space & Sociocracy von Jutta Eckstein & John Buck https://www.agilebossanova.com/
Feedback, Fragen oder Themenwünsche? Schreib uns gern an podcast@inwt-statistics.de

Thursday Aug 01, 2024

In dieser Episode sprechen wir über die in-process Datenbank DuckDB, die im Juni Version 1.0.0 erreicht hat und einen innovativen Ansatz verfolgt. DuckDB wird direkt aus dem Code heraus gestartet und benötigt keine Berechtigungen oder User-Management, was an SQlite erinnert. Außerdem beleuchten wir die These, dass die "Big Data" Ära vorbei ist, warum das so ist und was das eigentlich mit DuckDB zu tun hat. 
 
***Links***
DuckDB: https://duckdb.org/
MotherDB: https://motherduck.com/
Blog: Big Data is Dead by Jordan Tigani https://motherduck.com/blog/big-data-is-dead/
Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Thursday Jul 18, 2024

Data Science entwickelt sich ständig und schnell weiter, was kontinuierliche Weiterbildung unerlässlich macht. In dieser Episode diskutieren wir, wie Arbeitgeber*innen ihre Mitarbeitenden unterstützen können und welche organisatorischen und projektbezogenen Formate sich für uns als effektiv erwiesen haben. Zudem sprechen wir über private Fortbildungsmaßnahmen und geben Tipps zur Auswahl geeigneter Kurse und Konferenzen.
***Links***
Data Culture Podcast von BARC (deutsch): https://barc.com/de/the-data-culture-podcast/
The MLOps Podcast (english): https://podcast.mlops.community/
Practical AI (english): https://changelog.com/practicalai
Software Engineering Radio Podcast (english): https://se-radio.net/
Data Engineering Podcast (english): https://www.dataengineeringpodcast.com/
Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Thursday Jul 11, 2024

Ab der nächsten Episode ist "In Numbers We Trust - Der Data Science Podcast" Geschichte. Wir benennen unseren Podcast um in "Data Science Deep Dive". Aber keine Sorge, ansonsten wird sich nichts ändern. Auf die nächsten 50 Episoden!
Vielen Dank an alle treuen Hörer*innen und herzlich willkommen an alle, die neu dabei sind.
Wir sind INWT und wir machen Data Science, von der ersten Idee bis zum fertigen Produkt, und in diesem Podcast sprechen wir darüber. Es ist unser Anspruch, Data Science-Themen tiefgehend zu besprechen und praxisorientiert zu vermitteln. Wir sprechen über alles, was wir spannend finden, mit Leuten, die wir kennen und mögen.
Wir freuen uns, wenn ihr auch beim Data Science Deep Dive mit dabei seid!
Und wie immer könnt ihr eure Fragen, Anmerkungen und Themenwünsche gern an podcast@inwt-statistics.de schreiben.

Thursday Jul 04, 2024

Wir lassen GPT3.5 Turbo und XGBoost bei der Prognose einer metrischen Zielvariablen gegeneinander antreten. Dafür haben wir von LOT Internet Fahrzeugdaten aus dem Portal mobile.de bereitgestellt bekommen, um zu sehen, wer bei der Prognose des Fahrzeugpreises die Nase vorn hat. Zudem besprechen wir das Finetuning und gehen auch darauf ein, wie LLMs und XGBoost kombiniert werden können. 
 
***Links***
Blogartikel: Predictive LLMs: Kann GPT-3.5 die Prognosen von XGBoost verbessern? https://www.inwt-statistics.de/blog/predictive-llms-kann-gpt-xgboost-prognosen-verbessern
#27: Kann ein Large Language Model (LLM) bei der Klassifikation tabellarischer Daten XGBoost schlagen? https://inwt.podbean.com/e/27-kann-ein-large-language-model-llm-bei-der-klassifikation-tabellarischer-daten-xgboost-schlagen/
OpenAI API: https://platform.openai.com/docs/introduction
LLMs für Prognosen auf tabularen Daten zu nutzen, ist wenig erforscht. Wenn es probiert wurde, geht es meistens um Klassifikation, also keine metrische Zielvariable. Ein oft zitiertes Paper hierzu ist dieses: TabLLM: Few-shot Classification of Tabular Data with Large Language Models (Stefan Hegselmann, Alejandro Buendia, Hunter Lang, Monica Agrawal, Xiaoyi Jiang, David Sontag 
Proceedings of The 26th International Conference on Artificial Intelligence and Statistics, PMLR 206:5549-5581, 2023.) https://proceedings.mlr.press/v206/hegselmann23a/hegselmann23a.pdf
Till mit seinem Song In My Fantasy auf YouTube: https://www.youtube.com/watch?v=MU3oyJ1WR1U

Thursday Jun 13, 2024

Wer hat Data Science Projekte besser im Griff: erfahrene Data Scientists oder fachfremde Führungskräfte? In dieser Episode gibt uns Marcel Hebing ein paar Einblicke in sein neues Buch "Data Science Management" und dessen Schwerpunkte. Wir diskutieren die optimale Verortung von Data Science Teams, die Bedeutung der Unternehmenskultur und die Herausforderungen bei der praktischen Umsetzung von Data Science Projekten. 
 
***Links***
Marcel Hebing auf LinkedIn: https://www.linkedin.com/in/marcel-hebing/
Impact Distillery: https://www.impactdistillery.com/
kaleidemoskop: https://kaleidemoskop.de/
DBU University of Applied Sciences: https://dbuas.de/
Buch "Data Science Management" von Marcel Hebing & Martin Manhembué: https://dpunkt.de/produkt/data-science-management/
Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de
 

Thursday May 30, 2024

Warum entscheiden sich Unternehmen für Open Source oder Closed Source Software im Data Science Bereich? Wir sprechen über verschiedene Aspekte des Technologie-Stacks wie Programmiersprachen, Datenbanken und BI-Tools. Dabei gehen wir auf die historischen Präferenzen und aktuellen Trends ein, insbesondere die zunehmende Bedeutung von Open Source Lösungen. Außerdem diskutieren wir die Vor- und Nachteile beider Ansätze in Bezug auf Support, Sicherheit, Compliance und Kosten.
 
***Links***- R: Regulatory Compliance and Validation Issues https://www.r-project.org/doc/R-FDA.pdf - https://streamlit.io/ - https://www.gradio.app/guides/creating-a-dashboard-from-bigquery-data - https://killedbygoogle.com/ - https://en.wikipedia.org/wiki/Revolution_Analytics - Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de
 

Thursday May 16, 2024

In dieser Episode spricht Mira mit Tobias Sterbak, einem Freelance Machine Learning Engineer mit Fokus auf NLP-Anwendungen, über Data Science und generative KI. Wir vergleichen klassische Data Science-Methoden mit den neuesten KI-Ansätzen wie Large Language Models (LLMs). Ihr erfahrt, wie sich Datenbereitstellung, Validierung und Feature Engineering unterscheiden und welche Herausforderungen dabei auftreten. Außerdem gehen wir auf die Bedeutung der User Experience und die Schwierigkeiten bei der Bewertung der Modelle ein.
 
***Links:***
Website von inwt: https://www.inwt-statistics.de
Blog von Tobias Sterbak: https://www.depends-on-the-definition.com/
Website von Tobias Sterbak: https://tobiassterbak.com/
Ein Feuer auf der Tiefe (engl.: A Fire Upon the Deep) von Vernor Vinge https://de.wikipedia.org/wiki/Ein_Feuer_auf_der_Tiefe
Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

Thursday May 02, 2024

R ist keine Compilersprache und damit von Natur aus eher langsam. Wir sprechen darüber wie man die Performance von R Code optimieren kann und welche spezifischen Herausforderungen R dabei mit sich bringt. Wir besprechen Methoden, um Engpässe im Code effizient zu identifizieren, darunter Tools wie system.time, microbenchmark und profvis. Anschließend teilen wir Techniken für die Arbeit mit großen Datensätzen und die Parallelisierung. Wir zeigen wie durch gezielte Optimierung erhebliche Performance-Verbesserungen erzielt werden können.
***Links:***
Episode #41: Strategien zur Performance-Optimierung in Python https://www.podbean.com/ew/pb-weg8d-158cd71
Blogartikelserie zu Code Performance in R:
 R-Code beschleunigen https://www.inwt-statistics.de/blog/code-performanz-in-r-r-code-beschleunigen
Warum ist mein Code langsam? https://www.inwt-statistics.de/blog/code-performanz-in-r-warum-ist-mein-code-langsam
Parallelisierung https://www.inwt-statistics.de/blog/code-performanz-in-r-parallelisierung
Mit großen Datensätzen arbeiten https://www.inwt-statistics.de/blog/code-performanz-in-r-mit-grossen-datensaetzen-arbeiten
Rccp: https://www.rcpp.org/
Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

Thursday Apr 18, 2024

Wie baue ich ein Data Team auf? Wie kriege ich beim Hiring the richtigen Leute? Und wie fördere ich eine gute Fehlerkultur? All diesen Fragen ist Dr. Stephan Hausberg, Head of Data Science und Business Analytics bei 1&1 Versatel, in den letzten Jahren begegnet. In diesem Interview lässt er uns an seinen Learnings teilhaben. Enjoy!
 
**Links**
Buch: Story Telling with Data https://www.storytellingwithdata.com/books
Stephan Hausberg auf LinkedIn: https://www.linkedin.com/in/dr-stephan-hausberg-679750118/
Mira Céline Klein auf LinkedIn: https://www.linkedin.com/in/mira-celine-klein-848753264/ 
Feedback & Themenwünsche gern an: podcast@inwt-statistics.de
Website inwt: https://www.inwt-statistics.de/

Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.

Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.

Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.

Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.

Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Copyright 2024 All rights reserved.

Podcast Powered By Podbean

Version: 20241125