In Numbers We Trust - Der Data Science Podcast

Wir machen Data Science. Und in unserem Podcast IN NUMBERS WE TRUST reden wir darüber. Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten. Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben. Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt. Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Listen on:

  • Apple Podcasts
  • Podbean App
  • Spotify
  • Amazon Music

Episodes

6 days ago

Wer hat Data Science Projekte besser im Griff: erfahrene Data Scientists oder fachfremde Führungskräfte? In dieser Episode gibt uns Marcel Hebing ein paar Einblicke in sein neues Buch "Data Science Management" und dessen Schwerpunkte. Wir diskutieren die optimale Verortung von Data Science Teams, die Bedeutung der Unternehmenskultur und die Herausforderungen bei der praktischen Umsetzung von Data Science Projekten. 
 
***Links***
Marcel Hebing auf LinkedIn: https://www.linkedin.com/in/marcel-hebing/
Impact Distillery: https://www.impactdistillery.com/
kaleidemoskop: https://kaleidemoskop.de/
DBU University of Applied Sciences: https://dbuas.de/
Buch "Data Science Management" von Marcel Hebing & Martin Manhembué: https://dpunkt.de/produkt/data-science-management/
Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de
 

Thursday May 30, 2024

Warum entscheiden sich Unternehmen für Open Source oder Closed Source Software im Data Science Bereich? Wir sprechen über verschiedene Aspekte des Technologie-Stacks wie Programmiersprachen, Datenbanken und BI-Tools. Dabei gehen wir auf die historischen Präferenzen und aktuellen Trends ein, insbesondere die zunehmende Bedeutung von Open Source Lösungen. Außerdem diskutieren wir die Vor- und Nachteile beider Ansätze in Bezug auf Support, Sicherheit, Compliance und Kosten.
 
***Links***- R: Regulatory Compliance and Validation Issues https://www.r-project.org/doc/R-FDA.pdf - https://streamlit.io/ - https://www.gradio.app/guides/creating-a-dashboard-from-bigquery-data - https://killedbygoogle.com/ - https://en.wikipedia.org/wiki/Revolution_Analytics - Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de
 

Thursday May 16, 2024

In dieser Episode spricht Mira mit Tobias Sterbak, einem Freelance Machine Learning Engineer mit Fokus auf NLP-Anwendungen, über Data Science und generative KI. Wir vergleichen klassische Data Science-Methoden mit den neuesten KI-Ansätzen wie Large Language Models (LLMs). Ihr erfahrt, wie sich Datenbereitstellung, Validierung und Feature Engineering unterscheiden und welche Herausforderungen dabei auftreten. Außerdem gehen wir auf die Bedeutung der User Experience und die Schwierigkeiten bei der Bewertung der Modelle ein.
 
***Links:***
Website von inwt: https://www.inwt-statistics.de
Blog von Tobias Sterbak: https://www.depends-on-the-definition.com/
Website von Tobias Sterbak: https://tobiassterbak.com/
Ein Feuer auf der Tiefe (engl.: A Fire Upon the Deep) von Vernor Vinge https://de.wikipedia.org/wiki/Ein_Feuer_auf_der_Tiefe
Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

Thursday May 02, 2024

R ist keine Compilersprache und damit von Natur aus eher langsam. Wir sprechen darüber wie man die Performance von R Code optimieren kann und welche spezifischen Herausforderungen R dabei mit sich bringt. Wir besprechen Methoden, um Engpässe im Code effizient zu identifizieren, darunter Tools wie system.time, microbenchmark und profvis. Anschließend teilen wir Techniken für die Arbeit mit großen Datensätzen und die Parallelisierung. Wir zeigen wie durch gezielte Optimierung erhebliche Performance-Verbesserungen erzielt werden können.
***Links:***
Episode #41: Strategien zur Performance-Optimierung in Python https://www.podbean.com/ew/pb-weg8d-158cd71
Blogartikelserie zu Code Performance in R:
 R-Code beschleunigen https://www.inwt-statistics.de/blog/code-performanz-in-r-r-code-beschleunigen
Warum ist mein Code langsam? https://www.inwt-statistics.de/blog/code-performanz-in-r-warum-ist-mein-code-langsam
Parallelisierung https://www.inwt-statistics.de/blog/code-performanz-in-r-parallelisierung
Mit großen Datensätzen arbeiten https://www.inwt-statistics.de/blog/code-performanz-in-r-mit-grossen-datensaetzen-arbeiten
Rccp: https://www.rcpp.org/
Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

Thursday Apr 18, 2024

Wie baue ich ein Data Team auf? Wie kriege ich beim Hiring the richtigen Leute? Und wie fördere ich eine gute Fehlerkultur? All diesen Fragen ist Dr. Stephan Hausberg, Head of Data Science und Business Analytics bei 1&1 Versatel, in den letzten Jahren begegnet. In diesem Interview lässt er uns an seinen Learnings teilhaben. Enjoy!
 
**Links**
Buch: Story Telling with Data https://www.storytellingwithdata.com/books
Stephan Hausberg auf LinkedIn: https://www.linkedin.com/in/dr-stephan-hausberg-679750118/
Mira Céline Klein auf LinkedIn: https://www.linkedin.com/in/mira-celine-klein-848753264/ 
Feedback & Themenwünsche gern an: podcast@inwt-statistics.de
Website inwt: https://www.inwt-statistics.de/

Thursday Apr 04, 2024

Ist die lineare Regression nicht nur längst überholtes Zeug aus der Statistik 1 Vorlesung? Trotz ihrer vermeintlichen Einfachheit ist sie ein wichtiges Werkzeug in der Data Science. Ein Werkzeug das oft unterschätzt wird. Wir diskutieren wann lineare Regression zum Einsatz kommt, ihre Grenzen, Alternativen und Beispiele aus der Praxis.
**Links:**
[Blog] Einfache lineare Regression: https://www.inwt-statistics.de/blog/einfache_lineare_regression
[Blog] Multiple lineare Regression: https://www.inwt-statistics.de/blog/multiple_lineare_regression
[Blog] Beispielregression - Zunge vs. Zahlen: https://www.inwt-statistics.de/blog/beispielregression_zunge_vs_zahlen
Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

Thursday Mar 21, 2024

Zwei Herausforderungen bei der Zuverlässigkeit von Prognosen im Live-Betrieb sind Overfitting (Modell ist zu stark an Trainingsdaten angepasst) und Data Leakage (Modell verfügt über Informationen, die es in der realen Anwendung nicht hat). Wir sprechen darüber, was Overfitting und Data Leakage genau sind und wo ihre Ursachen liegen. Außerdem diskutieren wir Lösungsansätze. 
 
**Links:**
Spurious Correlations: https://www.tylervigen.com/spurious-correlations 
inwt Website: https://www.inwt-statistics.de/
 

Thursday Mar 07, 2024

Welches das richtige Visualisierungstool ist, hängt stark vom Projekt und auch vom Team ab. Wir erkunden drei Ansätze – interne Umgebungen wie Python Dash oder R Shiny, Dashboard-Tools wie Grafana und Redash, sowie Eigenentwicklung mit JS-Frameworks wie VueJs oder React – und wie sie sich in Bezug auf Entwicklungsgeschwindigkeit, Anpassungsfähigkeit und Skalierbarkeit unterscheiden. Auf dieser Grundlage geben wir eine Entscheidungshilfe, welcher dieser Ansätze "der Richtige" für ein Projekt ist. 
 
***Links***
Dash: https://dash.plotly.com/
Shiny: https://shiny.posit.co/
Vue.js: https://vuejs.org/
Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

Thursday Feb 22, 2024

Mit welchen Strategien können Entwickler*innen und Data Scientists die Laufzeit von Python Code verringern? Wir diskutieren warum Performance-Optimierung überhaupt notwendig ist und was das genau bedeutet. Anschließend gehen wir auf häufige Engpässe und verschiedene Ansätze zur Verbesserung der Effizienz, wie Profiling, Refactoring-Techniken und Parallelisierung ein. 
 
***Links:***
inwt Website: https://www.inwt-statistics.de/

Thursday Feb 08, 2024

Diskriminierung aufgrund des Geschlechts? Leider immer noch ein Thema! Deshalb widmen wir diese Sonderfolge den Frauen in der Data Science & Tech Branche. Zusammen mit Catrin und Isa vom Podcast Mind the Tech ordnen wir das Thema historisch ein, reflektieren unsere eigenen Erfahrungen im Arbeitsalltag und diskutieren, wie die Situation verbessert werden kann. Wir teilen unsere Wünsche und Ideen, wie ein Bewusstsein für geschlechtsbezogene Diskriminierung sowie Chancengleichheit im Berufsleben erreicht werden kann.
 
***Links***- Podcast Website von Isa und Cathrin: Mind the Tech - Cyber, Crime, Gesellschaft https://www.mindthetech.de/- Mind the Tech auf Spotify: https://open.spotify.com/show/6FydYmBjELizU8k8DOIcaA?si=d46c14932a18438d- Film Hidden Figures auf IMDb: https://www.imdb.com/title/tt4846340/- develop<HER> https://developher.de/- Wikipedia Artikel "Frauen in der Informatik": https://de.wikipedia.org/wiki/Frauen_in_der_Informatik- A New Approach to Programmer Aptitude Testing by Charles J. Testa: https://dl.acm.org/doi/pdf/10.1145/800120.803918- WO SIND DIE FRAUEN IN DER IT? Von Deborah Liebig auf get in {IT}:  https://www.get-in-it.de/magazin/arbeitswelt/it-arbeitsmarkt/wo-sind-die-frauen-in-der-it- inwt Website: https://www.inwt-statistics.de/

In Numbers We Trust

Wir machen Data Science. Und in unserem Podcast IN NUMBERS WE TRUST reden wir darüber.

Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.

Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.
Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.
Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.

Copyright 2022 All rights reserved.

Podcast Powered By Podbean

Version: 20240320