Kubernetes disaster

Protože nám problém začíná trochu přerůstat přes hlavu, rozhodli jsme se vytvořit tuto stránku, kde budeme informovat o postupu.

Náš Kubernetes cluster se začal ve čtvrtek chovat všelijak. Vypadávalo CoreDNS, takže kontejnery nedokázaly získat adresy k doménám a večer se k tomu přidal ingress-nginx. V noci pak problém eskaloval a od té doby jsme prakticky bez administrace. Bohužel na administraci máme napojenou autentizaci smtp serveru, takže nelze v současné chvíli odesílat emaily. Kromě administrace nefungují ještě nějaké další menší služby jako adminer nebo phpMyAdmin.

Používáme managed Kubernetes od DigitalOcean což situaci komplikuje a musíme čekat na reakci podpory DigitalOcean, protože nemáme přístup ke všem logům a master serveru.

Časová osa

Pátek 21:30 Vrátili jsme administraci zpátky do Kubernetes a všechno je zpět v normálu. Provedeme ještě nějaké změny, abychom příště u podobného problému mírnili dopad na náš systém.
Pátek: 14:01 Náš Kube cluster je už v pořádku, večer tam vrátíme administraci.
Pátek 13:00 Dostali jsme odpověď od podpory. Na master nodu nám podle nich došla paměť a tak nám master node trochu naboostují. Během odpoledne se tedy snad vše vrátí do normálu. Snažíme se s nimi ještě řešit, jak tomu v budoucnu předejít, ale protože nemáme žádný přístup k tomuto stroji a je plně v rukách DigitalOcean, tak pravděpodobně moc možností nebude.
Pátek 10:54 Kromě adminera a phpMyAdmina už všechno funguje, chvíli počkáme na podporu a pak se pustíme do vytvoření nového Kube clusteru. Plánovanou údržbu databází, o které jsme včera psali, přesuneme raději na další týden.
Pátek 10:48 Administrace už jede
Pátek 10:31 S administrací čekáme už jen na update DNS.
Pátek 10:01 Po nahlášení problému podpoře náš Kubernetes cluster definitivně umřel a nemůžeme se vůbec připojit k master serveru.
Pátek 9:35 V současné době pracujeme na tom, abychom spustili administraci mimo náš kube cluster.
Pátek 5:01 Od této chvíle administrace přestala být prakticky funkční.
Čtvrtek 21:22 Další výpadek administrace.
Čtvrtek 14:49 První výpadek administrace kvůli CoreDNS.

Stav služeb

Služba	Stav
Hosting aplikací	Funguje a nebyl výpadkem ovlivněn
SMTP server	Aktuálně funguje
Administrace	Aktuálně funguje
Adminer	Aktuálně funguje
phpMyAdmin	Aktuálně funguje

Action list

Vzhledem k tomu, že náš Kube cluster má obsahovat jen podpůrné části naší služby, které nejsou kritické pro běh aplikací, ještě se podíváme, jak docílit ještě lepšího oddělení.

Udělat SMTP server méně závislý na administraci (při nedostupnosti brát ověřovací údaje z lokálního úložiště),
Připravit stránku o tom, že máme problém, kam budeme moc nasměrovat nefunkční služby jako byl v tomto případě Adminer a phpMyAdmin.