Kubernetes disaster

Protože nám problém začíná trochu přerůstat přes hlavu, rozhodli jsme se vytvořit tuto stránku, kde budeme informovat o postupu.

Náš Kubernetes cluster se začal ve čtvrtek chovat všelijak. Vypadávalo CoreDNS, takže kontejnery nedokázaly získat adresy k doménám a večer se k tomu přidal ingress-nginx. V noci pak problém eskaloval a od té doby jsme prakticky bez administrace. Bohužel na administraci máme napojenou autentizaci smtp serveru, takže nelze v současné chvíli odesílat emaily. Kromě administrace nefungují ještě nějaké další menší služby jako adminer nebo phpMyAdmin.

Používáme managed Kubernetes od DigitalOcean což situaci komplikuje a musíme čekat na reakci podpory DigitalOcean, protože nemáme přístup ke všem logům a master serveru.

Časová osa

Pátek 21:30 Vrátili jsme administraci zpátky do Kubernetes a všechno je zpět v normálu. Provedeme ještě nějaké změny, abychom příště u podobného problému mírnili dopad na náš systém.
Pátek: 14:01 Náš Kube cluster je už v pořádku, večer tam vrátíme administraci.
Pátek 13:00 Dostali jsme odpověď od podpory. Na master nodu nám podle nich došla paměť a tak nám master node trochu naboostují. Během odpoledne se tedy snad vše vrátí do normálu. Snažíme se s nimi ještě řešit, jak tomu v budoucnu předejít, ale protože nemáme žádný přístup k tomuto stroji a je plně v rukách DigitalOcean, tak pravděpodobně moc možností nebude.
Pátek 10:54 Kromě adminera a phpMyAdmina už všechno funguje, chvíli počkáme na podporu a pak se pustíme do vytvoření nového Kube clusteru. Plánovanou údržbu databází, o které jsme včera psali, přesuneme raději na další týden.
Pátek 10:48 Administrace už jede
Pátek 10:31 S administrací čekáme už jen na update DNS.
Pátek 10:01 Po nahlášení problému podpoře náš Kubernetes cluster definitivně umřel a nemůžeme se vůbec připojit k master serveru.
Pátek 9:35 V současné době pracujeme na tom, abychom spustili administraci mimo náš kube cluster.
Pátek 5:01 Od této chvíle administrace přestala být prakticky funkční.
Čtvrtek 21:22 Další výpadek administrace.
Čtvrtek 14:49 První výpadek administrace kvůli CoreDNS.

Stav služeb

Služba Stav
Hosting aplikací Funguje a nebyl výpadkem ovlivněn
SMTP server Aktuálně funguje
Administrace Aktuálně funguje
Adminer Aktuálně funguje
phpMyAdmin Aktuálně funguje

Action list

Vzhledem k tomu, že náš Kube cluster má obsahovat jen podpůrné části naší služby, které nejsou kritické pro běh aplikací, ještě se podíváme, jak docílit ještě lepšího oddělení.

  • Udělat SMTP server méně závislý na administraci (při nedostupnosti brát ověřovací údaje z lokálního úložiště),
  • Připravit stránku o tom, že máme problém, kam budeme moc nasměrovat nefunkční služby jako byl v tomto případě Adminer a phpMyAdmin.