◆Hochverfügbarkeit · Notfallwiederherstellung

Gebaut, um nie auszufallen.

Jede Komponente läuft heiß. Aktive und Standby-DB-Knoten replizieren kontinuierlich. Eine virtuelle IP schwebt über dem Cluster — keepalived überwacht den Primary, und sobald er nicht mehr antwortet, läuft der Verkehr über den Standby, bevor der durchschnittliche Zuschauer einen Puffer bemerkt. Das ist kein Postgres-Tutorial, das auf ein SaaS aufgesetzt ist — es ist erstklassige Infrastruktur, über die Ihr Betreiber niemals nachdenken muss.

99.999^%

Service Level Objective

<30^s

Failover-Wiederherstellung

3^×

Replikationsziele

Erforderliche Bedieneraktion

§ ATopologie

Cluster-Anatomie

Drei Knoten, eine Wahrheit.

Ein aktives/Standby-DB-Paar repliziert über ein privates Netzwerk. Ein Paar nginx-Load-Balancer nimmt an VRRP für eine virtuelle IP teil, die zwischen ihnen schwebt. Der Anwendungscluster liest über einen Connection-Pool, der bei einem Wechsel des Primary geleert wird und neu versucht. Jede Verbindung ist doppelt gepfadet.

▲Topologie · HA-Cluster-0013 nodes · vrrp v3

§ BFailover

Sub-30-Sekunden-Walkthrough

Was passiert, Sekunde für Sekunde.

Wenn ein Primärknoten ausfällt, geschieht die Wiederherstellung in 4 geordneten Schritten. Bedieneraktion: null. Kundenseitige Störung: kürzer als eine TCP-Neuübertragung.

T+0s

Heartbeat verloren

Das keepalived des Standby empfängt keine VRRP-Ankündigungen des Primary mehr. Nach 3 verpassten Beacons (~1,5s) befördert sich der Standby selbst.

Erkennung · 1,5s

T+2s

Promotion + STONITH

Der neue Primary fenct den alten Knoten ab — Power-Off via Cloud-API — und akzeptiert Schreibzugriffe. Die Replikationsrichtung kehrt sich um; der wiederhergestellte Knoten tritt als Standby bei.

Promotion · 2 s

T+5s

Virtuelle IP migriert

Die VRRP-virtuelle IP wechselt zur NIC des neuen Primary. Der Connection-Pool der Anwendungsschicht wird geleert; ausstehende Abfragen werden gegen den neuen Endpunkt erneut versucht.

VIP-Migration · 3s

T+<30s

Stabiler Zustand

Der Dienst ist wiederhergestellt. Der wiederhergestellte Knoten synchronisiert sich, sobald er erreichbar ist, und tritt als warmer Standby bei. Audit-Log-Einträge werden geschrieben. Der Betreiber erhält eine einzige Benachrichtigung — im Nachhinein.

Vollständige Wiederherstellung · 30s

§ CMatrix

Was bewahrt wird — und was nicht.

Lesevorgänge

Kontinuierlich. Standby liefert während des Failovers Read Replicas; Clients sehen niemals eine Unterbrechung im Leseverkehr.

Schreibvorgänge

Kurz ausgesetzt (< 5 Sekunden) während der Promotion. Ausstehende Schreibvorgänge werden vom Connection-Pool mit Idempotenzschlüsseln neu versucht.

Benutzersitzungen

JWT-basiert, zustandslos. Sitzungen bleiben durch das Failover ohne erneute Authentifizierung erhalten.

Hintergrundjobs

BullMQ-Warteschlangen sind Redis-gestützt und überleben das Failover. Laufende Jobs werden auf dem neuen Primary abgeschlossen.

Live-Streams

Origin-Server sind unabhängig von der Datenbank. Stream-Ingestion und HLS-Auslieferung sind nicht betroffen.

Bediener-Dashboard

Rendert gegen den neuen Primary, sobald die VIP migriert. Das Audit-Log zeigt das Failover-Ereignis.

§ ∞Sprechen Sie mit uns

Managed HA-Cluster-Pilot

Verfügbarkeit auf Ingenieursniveau.

Mit dem Engineering sprechen→Preise ansehen