Hochverfügbarkeit · Notfallwiederherstellung

Gebaut, um nie auszufallen.

Jede Komponente läuft heiß. Aktive und Standby-DB-Knoten replizieren kontinuierlich. Eine virtuelle IP schwebt über dem Cluster — keepalived überwacht den Primary, und sobald er nicht mehr antwortet, läuft der Verkehr über den Standby, bevor der durchschnittliche Zuschauer einen Puffer bemerkt. Das ist kein Postgres-Tutorial, das auf ein SaaS aufgesetzt ist — es ist erstklassige Infrastruktur, über die Ihr Betreiber niemals nachdenken muss.

99.999%
Service Level Objective
<30s
Failover-Wiederherstellung
3×
Replikationsziele
0
Erforderliche Bedieneraktion
§ ATopologie
Cluster-Anatomie

Drei Knoten, eine Wahrheit.

Ein aktives/Standby-DB-Paar repliziert über ein privates Netzwerk. Ein Paar nginx-Load-Balancer nimmt an VRRP für eine virtuelle IP teil, die zwischen ihnen schwebt. Der Anwendungscluster liest über einen Connection-Pool, der bei einem Wechsel des Primary geleert wird und neu versucht. Jede Verbindung ist doppelt gepfadet.

Topologie · HA-Cluster-0013 nodes · vrrp v3
VIRTUAL IP10.0.0.100● PRIMARYdb-01writes · accepting○ STANDBYdb-02replicating · warmAPP CLUSTERtuse · ott · prism○ LB-Anginx · keepalivedvrrp master○ LB-Bnginx · keepalivedvrrp backupCLIENT TRAFFIC ↑ 12.4M CCV
§ BFailover
Sub-30-Sekunden-Walkthrough

Was passiert, Sekunde für Sekunde.

Wenn ein Primärknoten ausfällt, geschieht die Wiederherstellung in 4 geordneten Schritten. Bedieneraktion: null. Kundenseitige Störung: kürzer als eine TCP-Neuübertragung.

T+0s

Heartbeat verloren

Das keepalived des Standby empfängt keine VRRP-Ankündigungen des Primary mehr. Nach 3 verpassten Beacons (~1,5s) befördert sich der Standby selbst.

Erkennung · 1,5s
T+2s

Promotion + STONITH

Der neue Primary fenct den alten Knoten ab — Power-Off via Cloud-API — und akzeptiert Schreibzugriffe. Die Replikationsrichtung kehrt sich um; der wiederhergestellte Knoten tritt als Standby bei.

Promotion · 2 s
T+5s

Virtuelle IP migriert

Die VRRP-virtuelle IP wechselt zur NIC des neuen Primary. Der Connection-Pool der Anwendungsschicht wird geleert; ausstehende Abfragen werden gegen den neuen Endpunkt erneut versucht.

VIP-Migration · 3s
T+<30s

Stabiler Zustand

Der Dienst ist wiederhergestellt. Der wiederhergestellte Knoten synchronisiert sich, sobald er erreichbar ist, und tritt als warmer Standby bei. Audit-Log-Einträge werden geschrieben. Der Betreiber erhält eine einzige Benachrichtigung — im Nachhinein.

Vollständige Wiederherstellung · 30s
§ CMatrix

Was bewahrt wird — und was nicht.

Lesevorgänge
Kontinuierlich. Standby liefert während des Failovers Read Replicas; Clients sehen niemals eine Unterbrechung im Leseverkehr.
Schreibvorgänge
Kurz ausgesetzt (< 5 Sekunden) während der Promotion. Ausstehende Schreibvorgänge werden vom Connection-Pool mit Idempotenzschlüsseln neu versucht.
Benutzersitzungen
JWT-basiert, zustandslos. Sitzungen bleiben durch das Failover ohne erneute Authentifizierung erhalten.
Hintergrundjobs
BullMQ-Warteschlangen sind Redis-gestützt und überleben das Failover. Laufende Jobs werden auf dem neuen Primary abgeschlossen.
Live-Streams
Origin-Server sind unabhängig von der Datenbank. Stream-Ingestion und HLS-Auslieferung sind nicht betroffen.
Bediener-Dashboard
Rendert gegen den neuen Primary, sobald die VIP migriert. Das Audit-Log zeigt das Failover-Ereignis.
§ ∞Sprechen Sie mit uns
Managed HA-Cluster-Pilot

Verfügbarkeit auf Ingenieursniveau.