◆Alta Disponibilità · Disaster Recovery

Costruito per non spegnersi mai.

Ogni componente funziona a caldo. I nodi DB attivo e standby si replicano continuamente. Un IP virtuale fluttua sopra il cluster — keepalived sorveglia il primario, e non appena smette di rispondere, il traffico passa allo standby prima che lo spettatore medio noti un buffer. Questo non è un tutorial di Postgres incollato su un SaaS — è infrastruttura di prima classe a cui il tuo operatore non deve mai pensare.

99.999^%

Obiettivo di Livello di Servizio

<30^s

Recupero di Failover

3^×

Obiettivi di Replica

Azione Operatore Richiesta

§ ATopologia

Anatomia del Cluster

Tre nodi, una verità.

Una coppia DB attivo/standby si replica su una rete privata. Una coppia di load-balancer nginx partecipa a VRRP per un IP virtuale che fluttua tra di loro. Il cluster applicativo legge tramite un pool di connessioni che si svuota e ritenta quando il primario si sposta. Ogni link è a doppio percorso.

▲Topologia · HA-Cluster-0013 nodes · vrrp v3

§ BFailover

Walkthrough sotto i 30 secondi

Cosa accade, secondo per secondo.

Quando un nodo primario fallisce, il recupero avviene in 4 passaggi ordinati. Azione operatore: zero. Disturbo lato cliente: più breve di una ritrasmissione TCP.

T+0s

Heartbeat perso

Il keepalived dello standby smette di ricevere gli annunci VRRP del primario. Dopo 3 beacon mancati (~1.5s), lo standby si promuove.

Rilevamento · 1.5s

T+2s

Promozione + STONITH

Il nuovo primario isola il vecchio nodo — spegnimento via API cloud — e accetta scritture. La direzione di replica si inverte; il nodo recuperato si riunirà come standby.

Promozione · 2s

T+5s

L'IP virtuale migra

L'IP virtuale VRRP si sposta sulla NIC del nuovo primario. Il pool di connessioni del livello applicativo si svuota; le query in volo vengono riprovate contro il nuovo endpoint.

Migrazione VIP · 3s

T+<30s

Stato stabile

Il servizio è ripristinato. Il nodo recuperato, quando raggiungibile, sincronizza e si unisce come standby caldo. Le voci dell'audit log vengono scritte. L'operatore riceve una singola notifica — a posteriori.

Recupero completo · 30s

§ CMatrice

Cosa si preserva — e cosa no.

Letture

Continue. Lo standby serve repliche di lettura durante il failover; i client non vedono mai un'interruzione nel traffico di lettura.

Scritture

Brevemente sospese (< 5 secondi) durante la promozione. Le scritture in volo vengono ritentate dal pool di connessioni con chiavi di idempotenza.

Sessioni utente

Basate su JWT, stateless. Le sessioni persistono attraverso il failover senza riautenticazione.

Job in background

Le code BullMQ sono supportate da Redis e sopravvivono al failover. I job in corso si completano sul nuovo primario.

Stream live

I server origin sono indipendenti dal database. L'ingest dello stream e la consegna HLS non sono interessati.

Dashboard operatore

Si renderizza contro il nuovo primario nel momento in cui la VIP migra. L'audit log mostra l'evento di failover.

§ ∞Parla con noi

Pilota un cluster HA gestito

Uptime di livello ingegneristico.

Parla con l'ingegneria→Vedi prezzi