Thursday Apr 23, 2026

#92: Anomaly Detection von Produktbildern mit ClickHouse

In dieser Episode geht es um die Anomaly Detection von Produktbildern in einem realen Produktions-Use-Case – von der Problemstellung bis zur Umsetzung in ClickHouse. Wir zeigen, wie sich fehlerhafte Produkterkennungen mithilfe von Embeddings und Distanzmaßen identifizieren lassen, ohne auf aufwendige gelabelte Daten angewiesen zu sein. Der Fokus liegt auf einer pragmatischen, performanten Lösung direkt in der ClickHouse-Datenbank, die Anomalien in Millisekunden erkennt und gleichzeitig die Datenqualität für das Modelltraining verbessert. Außerdem diskutieren wir Trade-offs zwischen Einfachheit, Performance und Entwicklungsaufwand sowie Learnings aus dem Projekt.

 

**Zusammenfassung**

  • Use Case: Automatische Produkterkennung auf Basis von Videostreams mit Fehlerquote (~ 5%)
  • Problem: Falsche Zuordnungen durch Störkörper, Überlagerungen und ungünstige Perspektiven
  • Ziel: Identifikation unsicherer Vorhersagen zur manuellen Prüfung und sauberen Trainingsdaten
  • Ansatz: Unsupervised Anomaly Detection mittels Embeddings und Distanz zum Clusterzentrum
  • Methode: K-Means-Logik – große Distanz --> geringe Zuordnungs-Sicherheit
  • Threshold: 2 x Standardabweichung identifiziert ~ 90% der Anomalien (bewusster Trade-off)
  • Umsetzung: Echtzeit-Berechnung direkt in ClickHouse über Materialized Views
  • Vorteil: Keine zusätzliche Infrastruktur (z.B. Kafka), sehr geringe Latenz (< 1 Sekunde)
  • Nachteil: Trennung zwischen Entwicklung (Python) und Produktion (SQL/ClickHouse)

 

**Links**

📬 Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an: podcast@inwt-statistics.de

Comment (0)

No comments yet. Be the first to say something!

Copyright 2024 All rights reserved.

Podcast Powered By Podbean

Version: 20241125