Direktiv — Kubernetes-Native Engine
TL;DR
Optimierung des Event-Bus und Überarbeitung des Monitoring-Systems einer Kubernetes-nativen Workflow-Engine.
Das Problem
Bei hoher Last traten in der Workflow-Engine Latenzspitzen und Paketverluste auf, während gleichzeitig die Transparenz zur Fehleranalyse laufender Workflows unzureichend war.
Die Umsetzung
Optimierung des internen Event-Routings, Entkopplung blockierender Datenbankabfragen in Go und Integration strukturierter Protokollierung (slog). Aufbau von Observability-Pipelines über OpenTelemetry, Fluent Bit und Prometheus.
Der Stack
Go, Kubernetes, Knative, PostgreSQL, OpenTelemetry, Prometheus, Grafana.
Das Ergebnis
Steigerung des Event-Durchsatzes um den Faktor 10 und Reduzierung der Ausführungslatenz auf kritischen Pfaden auf unter 5 ms.
Beigetragene Open-Source-PRs: