Kafka Sizing & Scaling: Hardware-Anforderungen und Strategien zur Skalierung

Man braucht kein riesiges Cluster, um Kafka produktiv zu betreiben. Wir räumen mit Hardware-Mythen auf und zeigen, wie man mit 3 Brokern effizient startet und sauber skaliert.

Von Anatoly Zelenin

Der häufigste Fehler: Die Clients

Bevor wir über Hardware sprechen, ein wichtiger Hinweis vorab: Oft liegt eine hohe Ressourcenlast gar nicht an den Kafka Brokern selbst, sondern an fehlkonfigurierten Clients.

Schlechte Batch-Sizes oder unnötig aggressive Polling-Intervalle können einen Cluster in die Knie zwingen, egal wie viel Hardware man darauf wirft. Prüfe also zuerst deine Clients, bevor du den Cluster vergrößerst.

Im Artikel Apache Kafka Clients richtig konfigurieren findest du mehr Informationen zur richtigen Konfiguration der Clients.

Controller

Wir empfehlen stets, mit drei dedizierten Controller-Knoten zu starten.

Auch wenn es technisch möglich ist, Controller und Broker in der gleichen JVM laufen zu lassen, macht die Trennung eine spätere Skalierung deutlich einfacher und den Betrieb stabiler.

Üblicherweise reichen drei Controller-Knoten auch für größere Kafka Cluster vollständig aus. Sie sind relativ genügsam:

Start: 1-2 GB RAM und 0,5 CPU-Kerne reichen für den Anfang völlig.
Storage: 10 GB Speicherplatz werden eine sehr lange Zeit reichen.
Peak: Selbst in einem stark belasteten Kafka-Cluster benötigen die Controller maximal 4-8 GB RAM und 1-2 CPU-Kerne.

Die Anzahl der Controller hat keinen Einfluss auf die Performance, sondern ausschließlich auf die Zuverlässigkeit des Quorums. Bei drei Controllern kann einer ausfallen, ohne dass es zu Einschränkungen kommt. Bei fünf Controllern können zwei ausfallen. Unserer Meinung nach reichen für die allermeisten Anwendungsfälle drei Controller vollständig aus.

Hinweis: Die Regeln hier gelten sowohl für den modernen KRaft-Modus als auch für ältere ZooKeeper-Setups.

Broker

Bei den eigentlichen Brokern ist die Sache etwas komplexer. Hier müssen wir Speicher, RAM, CPU und Netzwerk betrachten.

Storage

Ganz wichtig ist es, den Brokern schnellen und latenzarmen Speicher zur Verfügung zu stellen. Kafka reagiert empfindlich auf Latenzspikes beim Schreiben auf die Festplatte.

Hände weg von NFS & Co.!

Vermeide langsamen netzwerkbasierten Speicher wie NFS, GlusterFS oder Portworx. Die schwankenden Latenzen führen früher oder später fast immer zu Stabilitätsproblemen.

Nutze stattdessen: iSCSI-Volumes, schnellen Cloud-Block-Storage oder idealerweise lokalen SSD-Speicher.

Die Festplattengröße richtet sich simpel nach den zu erwartenden Datenmengen und dem Replication Factor.

Formel: Tägliches Ingest × Aufbewahrungszeit (Retention) × Replication Factor
Beispiel: Werden am Tag 10 GB produziert und sollen 7 Tage aufbewahrt werden, benötigen wir im Cluster insgesamt 210 GB Speicherplatz. Auf drei Broker aufgeteilt bedeutet, dass jeder Broker mindestens 70 GB Speicherplatz benötigt.

RAM (Arbeitsspeicher)

Kafka Broker nutzen RAM auf zweierlei Art:

JVM Heap: Für die Anwendung selbst.
Page Cache: Als Pufferspeicher auf Betriebssystemebene.

Die Broker benötigen selbst in sehr großen Clustern selten mehr als 6 GB Heap (konfiguriert über -Xmx und -Xms). Üblicherweise wird der RAM 50/50% auf den Heap und den Page Cache aufgeteilt bis die 6 GB Heap erreicht sind. Der gesamte restliche RAM wird vom Betriebssystem automatisch als Page Cache für schnellere Schreib- und vor allem Lesevorgänge benutzt. Je mehr Page Cache zur Verfügung steht, desto mehr Anfragen kann Kafka direkt aus dem RAM beantworten, ohne auf die Festplatte zugreifen zu müssen.

CPU & Verhältnis

Für ganz kleine Cluster reicht es oft, mit 1 GB RAM und 512 MB Heap sowie 1 CPU-Core zu starten.

Um ein Gefühl für das richtige Verhältnis zwischen RAM und CPU zu bekommen, lohnt sich ein Blick auf die Memory Optimized Instances von AWS. Eine gute Faustregel ist hier:

RAM in GB = vCPU * 8

Das entspricht zum Beispiel 16 GB RAM bei 2 vCPUs.

Netzwerk

Beim Netzwerk gilt meistens: Nimm, was du kriegen kannst. Kafka profitiert von hoher Bandbreite. Wenn 10 oder sogar 25 Gbit verfügbar sind, nimm sie gerne mit. Achte in Cloud-Umgebungen darauf, dass die Netzwerkbandbreite oft an die Instanzgröße gekoppelt ist – manchmal muss man die Instanz vergrößern, nur um mehr Durchsatz zu erhalten.

Skalierung

Wenn die Last steigt, stellt sich die Frage: Horizontal (mehr Broker) oder vertikal (dickere Server) skalieren?

Vertikale Skalierung ist operativ üblicherweise einfacher, hat aber einen Nachteil: Wenn einer von drei Brokern ausfällt, müssen die verbleibenden zwei plötzlich 50% mehr Last übernehmen (bei Replication Factor 3). Je größer die einzelnen Broker sind, desto härter trifft uns der Ausfall eines Brokers.

Unsere Empfehlung:

Startet mit drei Brokern. Skaliert diese vertikal bis zu 64 GB RAM (und entsprechenden CPUs). Danach würden wir die Anzahl der Broker langsam erhöhen, vielleicht bis etwa 6 Broker.

Spätestens dann sollte man einen sehr genauen Blick auf die Metriken werfen, um den echten Flaschenhals zu finden. Ist es wirklich die CPU? Oder doch das Netzwerk oder Disk-IO? Anhand dieser Analyse entscheidet man, ob mehr Broker oder stärkere Ressourcen sinnvoller sind.

Wichtig: Rebalancing

Beim Hinzufügen von neuen Brokern passiert erstmal nichts. Die Last wird nicht automatisch umverteilt. Das ist der Job von Tools wie Cruise Control, die Partitionen intelligent auf die neuen Knoten verschieben.

Unsicher beim Sizing?

Wenn du dir unsicher bist, ob deine Hardware für deine Last ausreicht oder warum dein Cluster langsam ist, lass uns sprechen.

Kennenlerngespräch vereinbaren

Von Anatoly Zelenin

Der Forever-Log: Warum Tiered Storage die Rechnung (und die Risiken) verändert

Tiered Storage verwandelt Kafka in ein System of Record mit unbegrenzter Retention. Doch mit großen Möglichkeiten kommen neue Albträume. Anatoly Zelenin und Bryan De Smaele diskutieren, warum Replikation kein Backup ist und warum ein einziges gelöschtes Topic Terabytes an Daten vernichten kann.

Von Anatoly Zelenin

Schema Management in Kafka

In diesem Post erfährst du, wie explizite Schemas, dir dabei helfen, ein mögliches Chaos in Kafka zu vermeiden und wie die Schema Registries dabei unterstützen.

Kafka Sizing & Scaling: Hardware-Anforderungen und Strategien zur Skalierung

Controller

Broker

Storage

RAM (Arbeitsspeicher)

CPU & Verhältnis

Netzwerk

Skalierung

Unsicher beim Sizing?

Weiterlesen

Der Forever-Log: Warum Tiered Storage die Rechnung (und die Risiken) verändert

Schema Management in Kafka

Kontakt

Adresse

E-Mail Adresse

Links

Kafka Sizing & Scaling: Hardware-Anforderungen und Strategien zur Skalierung

Controller

Broker

Storage

RAM (Arbeitsspeicher)

CPU & Verhältnis

Netzwerk

Skalierung

Unsicher beim Sizing?

Teile diesen Beitrag

Weiterlesen

Der Forever-Log: Warum Tiered Storage die Rechnung (und die Risiken) verändert

Schema Management in Kafka

Kontakt

Adresse

E-Mail Adresse

Links