Direktiv — Kubernetes-Native Engine

TL;DR

Optimierung des Event-Bus und Überarbeitung des Monitoring-Systems einer Kubernetes-nativen Workflow-Engine.

Das Problem

Bei hoher Last traten in der Workflow-Engine Latenzspitzen und Paketverluste auf, während gleichzeitig die Transparenz zur Fehleranalyse laufender Workflows unzureichend war.

Die Umsetzung

Optimierung des internen Event-Routings, Entkopplung blockierender Datenbankabfragen in Go und Integration strukturierter Protokollierung (slog). Aufbau von Observability-Pipelines über OpenTelemetry, Fluent Bit und Prometheus.

Der Stack

Go, Kubernetes, Knative, PostgreSQL, OpenTelemetry, Prometheus, Grafana.

Das Ergebnis

Steigerung des Event-Durchsatzes um den Faktor 10 und Reduzierung der Ausführungslatenz auf kritischen Pfaden auf unter 5 ms.

Beigetragene Open-Source-PRs: