Víkendový výpadek

V sobotu krátce po 22:00 došlo k výpadku serveru alpha-node-6. V době psaní tohoto příspěvku ještě netušíme co je za problémem. Zdroj je někde na infrastruktuře Scaleway a pravděpodobně souvisí s výpadkem minulý týden, kdy došlo k odpojení síťových disků.

Pár minut před výpadkem došlo k nárůstu I/O operací a loadu, ale podle nás nebyla důvodem žádná nečekaná zátěž, ale spíše hardwarový problém. Podle podpory se jedná o problém se sítí na konkrétním nodu. Bohužel to nedokázali ani po 24 hodinách vyřešit a tak považujeme server za ztracený.

Nicméně jsme server obnovili ze zálohy a už ráno byly v provozu. Zvládli bychom to mnohem dřív, ale využili jsme příznivé denní doby a čekali, zda se podpoře nepodaří problém vyřešit a my nemuseli zahodit data za celý pátek. Databází se problém nedotkl.

Výpadkům se jen tak nevyhneme ať už používáme jakoukoli platformu. Díky přechodu do cloudu se nám otevírají nové možnosti, jak případné problémy řešit. Příští týden budeme hledat způsob, jak se zajistit rychlejší archivaci aplikací a jejich nahození na jiné servery, ideálně automaticky. Když ztratíme server, chceme se dostat s jeho obnovením pod hodinu. I když používáme Ansible, tak stále zůstává hodně manuálním úkonů, ve kterých máme ještě mezery.

Hodina se může zdát možná hodně, ale pracujeme s více než 100 GB dat na každém serveru, někde i více a jejich přenesení chvíli trvá. Není tedy problém spustit další server do pár minut, ale dostat na něj rychle data ze zálohy.