Alta Disponibilidade · Recuperação de Desastres

Construído para nunca ficar no escuro.

Cada componente funciona quente. Os nós ativo e standby do BD replicam continuamente. Um IP virtual flutua sobre o cluster — keepalived vigia o primário, e assim que ele deixa de responder, o tráfego vai para o standby antes que o espectador médio perceba um buffer. Isso não é um tutorial de Postgres pregado num SaaS — é infraestrutura de primeira classe na qual seu operador nunca precisa pensar.

99.999%
Objetivo de Nível de Serviço
<30s
Recuperação de Failover
3×
Alvos de Replicação
0
Ação do Operador Necessária
§ ATopologia
Anatomia do Cluster

Três nós, uma verdade.

Um par de BD ativo/standby replica sobre uma rede privada. Um par de load-balancers nginx participa de VRRP para um IP virtual que flutua entre eles. O cluster de aplicação lê através de um pool de conexões que esvazia e tenta novamente quando o primário se move. Cada link é de caminho duplo.

Topologia · HA-Cluster-0013 nodes · vrrp v3
VIRTUAL IP10.0.0.100● PRIMARYdb-01writes · accepting○ STANDBYdb-02replicating · warmAPP CLUSTERtuse · ott · prism○ LB-Anginx · keepalivedvrrp master○ LB-Bnginx · keepalivedvrrp backupCLIENT TRAFFIC ↑ 12.4M CCV
§ BFailover
Tour de menos de 30 segundos

O que acontece, segundo a segundo.

Quando um nó primário falha, a recuperação acontece em 4 passos ordenados. Ação do operador: zero. Interrupção do lado do cliente: mais curta que uma retransmissão TCP.

T+0s

Batimento perdido

O keepalived do standby deixa de receber os anúncios VRRP do primário. Após 3 balizas perdidas (~1.5s), o standby se promove.

Detecção · 1.5s
T+2s

Promoção + STONITH

O novo primário isola o nó antigo — desligamento via API cloud — e aceita gravações. A direção da replicação inverte; o nó recuperado se reunirá como standby.

Promoção · 2 s
T+5s

O IP virtual migra

O IP virtual VRRP se move para a NIC do novo primário. O pool de conexões da camada de aplicação esvazia; consultas em voo são repetidas contra o novo endpoint.

Migração VIP · 3s
T+<30s

Estado estável

O serviço é restaurado. O nó recuperado, quando alcançável, sincroniza e se junta como standby quente. Entradas do log de auditoria são gravadas. O operador recebe uma única notificação — após o fato.

Recuperação completa · 30s
§ CMatriz

O que é — e não é — preservado.

Leituras
Contínuas. O standby serve réplicas de leitura durante o failover; clientes nunca veem interrupção no tráfego de leitura.
Gravações
Brevemente suspensas (< 5 segundos) durante a promoção. Gravações em voo são repetidas pelo pool de conexões com chaves de idempotência.
Sessões de usuário
Baseadas em JWT, sem estado. Sessões persistem através do failover sem reautenticação.
Jobs em segundo plano
Filas BullMQ são suportadas por Redis e sobrevivem ao failover. Jobs em andamento completam no novo primário.
Streams ao vivo
Servidores de origem são independentes do banco de dados. Ingestão de stream e entrega HLS não são afetadas.
Dashboard do operador
Renderiza contra o novo primário no momento em que o VIP migra. O log de auditoria mostra o evento de failover.
§ ∞Fale conosco
Pilote um cluster HA gerenciado

Uptime de nível engenheiro.