Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber. Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten. Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben. Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt. Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Listen on:

  • Apple Podcasts
  • Podbean App
  • Spotify
  • Amazon Music

Episodes

Thursday Apr 04, 2024

Ist die lineare Regression nicht nur längst überholtes Zeug aus der Statistik 1 Vorlesung? Trotz ihrer vermeintlichen Einfachheit ist sie ein wichtiges Werkzeug in der Data Science. Ein Werkzeug das oft unterschätzt wird. Wir diskutieren wann lineare Regression zum Einsatz kommt, ihre Grenzen, Alternativen und Beispiele aus der Praxis.
**Links:**
[Blog] Einfache lineare Regression: https://www.inwt-statistics.de/blog/einfache_lineare_regression
[Blog] Multiple lineare Regression: https://www.inwt-statistics.de/blog/multiple_lineare_regression
[Blog] Beispielregression - Zunge vs. Zahlen: https://www.inwt-statistics.de/blog/beispielregression_zunge_vs_zahlen
Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

Thursday Mar 21, 2024

Zwei Herausforderungen bei der Zuverlässigkeit von Prognosen im Live-Betrieb sind Overfitting (Modell ist zu stark an Trainingsdaten angepasst) und Data Leakage (Modell verfügt über Informationen, die es in der realen Anwendung nicht hat). Wir sprechen darüber, was Overfitting und Data Leakage genau sind und wo ihre Ursachen liegen. Außerdem diskutieren wir Lösungsansätze. 
 
**Links:**
Spurious Correlations: https://www.tylervigen.com/spurious-correlations 
inwt Website: https://www.inwt-statistics.de/
 

Thursday Mar 07, 2024

Welches das richtige Visualisierungstool ist, hängt stark vom Projekt und auch vom Team ab. Wir erkunden drei Ansätze – interne Umgebungen wie Python Dash oder R Shiny, Dashboard-Tools wie Grafana und Redash, sowie Eigenentwicklung mit JS-Frameworks wie VueJs oder React – und wie sie sich in Bezug auf Entwicklungsgeschwindigkeit, Anpassungsfähigkeit und Skalierbarkeit unterscheiden. Auf dieser Grundlage geben wir eine Entscheidungshilfe, welcher dieser Ansätze "der Richtige" für ein Projekt ist. 
 
***Links***
Dash: https://dash.plotly.com/
Shiny: https://shiny.posit.co/
Vue.js: https://vuejs.org/
Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

Thursday Feb 22, 2024

Mit welchen Strategien können Entwickler*innen und Data Scientists die Laufzeit von Python Code verringern? Wir diskutieren warum Performance-Optimierung überhaupt notwendig ist und was das genau bedeutet. Anschließend gehen wir auf häufige Engpässe und verschiedene Ansätze zur Verbesserung der Effizienz, wie Profiling, Refactoring-Techniken und Parallelisierung ein. 
 
***Links:***
inwt Website: https://www.inwt-statistics.de/

Thursday Feb 08, 2024

Diskriminierung aufgrund des Geschlechts? Leider immer noch ein Thema! Deshalb widmen wir diese Sonderfolge den Frauen in der Data Science & Tech Branche. Zusammen mit Catrin und Isa vom Podcast Mind the Tech ordnen wir das Thema historisch ein, reflektieren unsere eigenen Erfahrungen im Arbeitsalltag und diskutieren, wie die Situation verbessert werden kann. Wir teilen unsere Wünsche und Ideen, wie ein Bewusstsein für geschlechtsbezogene Diskriminierung sowie Chancengleichheit im Berufsleben erreicht werden kann.
 
***Links***- Podcast Website von Isa und Cathrin: Mind the Tech - Cyber, Crime, Gesellschaft https://www.mindthetech.de/- Mind the Tech auf Spotify: https://open.spotify.com/show/6FydYmBjELizU8k8DOIcaA?si=d46c14932a18438d- Film Hidden Figures auf IMDb: https://www.imdb.com/title/tt4846340/- develop<HER> https://developher.de/- Wikipedia Artikel "Frauen in der Informatik": https://de.wikipedia.org/wiki/Frauen_in_der_Informatik- A New Approach to Programmer Aptitude Testing by Charles J. Testa: https://dl.acm.org/doi/pdf/10.1145/800120.803918- WO SIND DIE FRAUEN IN DER IT? Von Deborah Liebig auf get in {IT}:  https://www.get-in-it.de/magazin/arbeitswelt/it-arbeitsmarkt/wo-sind-die-frauen-in-der-it- inwt Website: https://www.inwt-statistics.de/

#39: Death by Microservices

Friday Jan 26, 2024

Friday Jan 26, 2024

Und nun lebe der Monolith? Während Microservices als State-of-the-Art gelten, beobachten wir auf Konferenzen teils gegenläufige Bewegungen zurück zu Monolithen. Gründe dafür sind vor allem die steigende Komplexität durch verteilte Systeme, Dateninkonsistenz und Abhängigkeiten zwischen verschiedenen Komponenten. Wir diskutieren die aktuelle Kritik an Microservices und gehen der Frage auf den Grund, ob und wann der Wechsel zu Monolithen sinnvoll ist. 
 
***Links:***- denodo https://www.denodo.com/de- YouTube: Microservices by KRAZAM https://www.youtube.com/watch?v=y8OnoxKotPQ- YouTube: When To Use Microservices (And When Not To!) • Sam Newman & Martin Fowler • GOTO 2020 https://www.youtube.com/watch?v=GBTdnfD6s5Q- YouTube: Don’t Build a Distributed Monolith - Jonathan "J." Tower - NDC London 2023 https://www.youtube.com/watch?v=p2GlRToY5HI
- inwt Website: https://www.inwt-statistics.de/

Thursday Jan 11, 2024

Wir zeigen, wie Echtzeitprognosen trotz eines komplexen Modells im Hintergrund möglich gemacht werden können. In vielen Anwendungsfällen, wie in der Finanzbranche oder bei der Betrugserkennung, ist es entscheidend, dass Prognosen schnell und präzise sind, um innerhalb von Sekunden eingreifen zu können. Wir gehen auf die technischen und modellseitigen Herausforderungen dabei ein und geben Tipps, an welchen Stellschrauben auf Seite der Architektur gedreht werden kann. 
 
*** Links ***- inwt Website: https://www.inwt-statistics.de/
 

Thursday Dec 07, 2023

Hochwassererkennung mit Satelliten? Wie das funktioniert erklärt Philip Popien, Director of Machine Learning bei Floodbase. Das Unternehmen erstellt mithilfe von Deep Learning Modellen Hochwasserprognosen und ist so in der Lage eine parametrische Flutversicherung anzubieten. Wir sprechen über die Input-Daten, den Labeling Prozess und die Prognosen des Deep Learning Modells. Natürlich gibt es auch Einblicke in die aktuellen Herausforderungen und einen Ausblick über die Weiterentwicklung des Modells.
***Links***
- inwt Website: https://www.inwt-statistics.de/- Floodbase Website: https://www.floodbase.com/- Philip Popien bei LinkedIn: https://www.linkedin.com/in/philip-popien/

Thursday Nov 23, 2023

Data Mesh ist eine innovative Herangehensweise an die Organisation von Daten in Unternehmen. Dabei ist jedes Team für die eigenen Daten und Datenprodukte verantwortlich. Wir beleuchten die vier Prinzipien des Data Mesh (Domain Ownership, Data as a Product, Self-Serve Data Platform und Federated Computational Governance). Zum Schluss stellen wir uns die Frage, welche Eigenschaften eine Plattform mitbringen muss, um ein Data Mesh effektiv zu unterstützen, und ob dieser Hype einen Kulturwandel auslösen wird oder Theorie bleibt. 
***Links:***- inwt Website: https://www.inwt-statistics.de/- Blog: Data Mesh Principles and Logical Architecture by Zhamak Dehghani https://martinfowler.com/articles/data-mesh-principles.html - Talk: Data - The land DevOps forgot by Michael Nygard https://www.youtube.com/watch?v=459-H33is6o - Blog: How to select technology for Data Mesh by Ryan Dawson https://www.thoughtworks.com/insights/blog/data-strategy/how-to-select-technology-data-mesh- White Paper: Simplifying Data Mesh for Self-Service Analytics on an Open Data Lakehouse by Mike Ferguson https://hello.dremio.com/wp-simplifying-data-mesh-on-data-dakehouse-reg.html- White Paper: How to Knit Your Data Mesh on Snowflake https://snowflake.hub.hushly.com/data-mesh-stream/how-to-knit-your-data-mesh-on-snowflake

Thursday Nov 09, 2023

Wie unterscheiden sich eigentlich Machine Learning Projekte von "herkömmlicher" Softwareenwicklung und welche Herausforderungen bieten sie? Darüber unterhält sich Amit mit Philipp Jackmuth, dem Gründer von dida, der übrigens auch unser Büronachbar ist. Philipp teilt anhand eines Anwendungsfalls im Bereich Natural Language Processing wichtige Erfolgsfaktoren, darunter Metriken, Modularität und den Umgang mit Blackbox-Modellen. 
 
*** Links ***- inwt Website https://www.inwt-statistics.de/- dida Website https://dida.do/de- dida bei LinkedIn https://www.linkedin.com/company/dida-machine-learning/- Philipp Jackmuth bei LinkedIn https://www.linkedin.com/in/philipp-jackmuth/
 

Data Science Deep Dive

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber.

Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.

Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.

Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.

Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Copyright 2024 All rights reserved.

Podcast Powered By Podbean

Version: 20241125