Yüksek Erişilebilirlik · Felaket Kurtarma

Karanlığa düşmemek için tasarlandı.

Her bileşen sıcak çalışır. Aktif ve yedek veritabanı düğümleri sürekli replike olur. Virtual IP kümenin üzerinde uçar — keepalived primary'i izler ve cevap vermediği an, ortalama izleyici buffer'ı fark etmeden trafik standby'a geçer. Bu, bir SaaS'a tutturulmuş Postgres tutorial'ı değildir — operatörünüzün düşünmesi gerekmeyen birinci sınıf altyapıdır.

99.999%
Hizmet Seviyesi Hedefi
<30s
Failover Kurtarma
3×
Replikasyon Hedefleri
0
Gereken Operatör Eylemi
§ ATopoloji
Küme Anatomisi

Üç düğüm, tek doğru.

Aktif/yedek veritabanı çifti özel ağ üzerinden replike olur. nginx load-balancer çifti, aralarında uçan virtual IP için VRRP'ye katılır. Uygulama kümesi, primary taşındığında flush eden ve yeniden deneyen bir connection pool üzerinden okur. Her bağlantı çift yollu.

Topoloji · HA-Küme-0013 nodes · vrrp v3
VIRTUAL IP10.0.0.100● PRIMARYdb-01writes · accepting○ STANDBYdb-02replicating · warmAPP CLUSTERtuse · ott · prism○ LB-Anginx · keepalivedvrrp master○ LB-Bnginx · keepalivedvrrp backupCLIENT TRAFFIC ↑ 12.4M CCV
§ BFailover
30 saniyenin altı yürüyüş

Saniye saniye ne olur.

Primary düğüm başarısız olduğunda, kurtarma 4 sıralı adımda gerçekleşir. Operatör eylemi: sıfır. Müşteri tarafı kesinti: TCP retransmit'ten kısa.

T+0s

Kalp atışı kayboldu

Standby'ın keepalived'i primary'in VRRP duyurularını almayı durdurur. 3 ardışık beacon kaçtıktan sonra (~1.5s), standby kendini promote eder.

Tespit · 1.5s
T+2s

Promotion + STONITH

Yeni primary eski düğümü fence eder — cloud API üzerinden power-off — ve write kabul eder. Replikasyon yönü tersine döner; kurtarılan düğüm standby olarak yeniden katılır.

Yükseltme · 2sn
T+5s

Virtual IP göç eder

VRRP virtual IP yeni primary'in NIC'ine taşınır. Uygulama katmanının connection pool'u flush olur; uçuştaki sorgular yeni endpoint'e karşı yeniden denenir.

VIP göç · 3s
T+<30s

Kararlı durum

Hizmet restore edildi. Kurtarılan düğüm, erişilebilir olduğunda, sync olur ve sıcak standby olarak katılır. Audit log girdileri yazılır. Operatör tek bir bildirim alır — olay sonrası.

Tam kurtarma · 30s
§ CMatriks

Ne korunur — ne korunmaz.

Okumalar
Sürekli. Standby failover sırasında read replica olarak hizmet verir; istemciler okuma trafiğinde kesinti görmez.
Yazmalar
Promotion sırasında kısa süre askıya alınır (< 5 saniye). Uçuştaki yazmalar idempotency key ile connection pool tarafından yeniden denenir.
Kullanıcı oturumları
JWT tabanlı, stateless. Oturumlar failover boyunca sıfır yeniden kimlik doğrulama ile devam eder.
Arka plan işleri
BullMQ kuyrukları Redis destekli ve failover'dan sağ çıkar. Devam eden işler yeni primary'de tamamlanır.
Canlı akışlar
Origin sunucular veritabanından bağımsız. Stream ingest ve HLS dağıtımı etkilenmez.
Operatör paneli
VIP göç ettiği an yeni primary'e karşı render olur. Audit log failover olayını gösterir.
§ ∞Bizimle konuş
Yönetilen HA küme pilot

Mühendislik kalitesinde çalışma süresi.