Výpadek administrace a emailů

Dnes odpoledne došlo na Roští k výpadku, který jsme bohužel neměli jak ovlivnit. Problém byl na serveru u Scaleway, na kterém máme databázi pro administraci a emaily a také administraci samotnou. Kromě toho i nějaké obslužné nástroje jako Sentry a grafy. Museli jsme data obnovit ze zálohy, kterou jsme měli dostupnou z 13:30. Vzhledem k tomu, že toto není poprvé a jsou na Scaleway i problémy s dostupností nových serverů, rozhodli jsme se to vzít jako impulz k nějakému řešení.

I když nefungovala administrace, tak se výpadek nedotkl žádné aplikace. Všechny servery s aplikacemi jsou schopny fungovat nezávisle na administraci. Emailový server bere data ze stejné databáze jako administrace, takže tam k výpadku došlo a během obnovy to pro nás byla priorita.

Základním problémem jsou síťové disky připojené přes Network block device protokol. Když nepočítám dva hodinové výpadky sítě, které jsme na Scaleway měli, toto byl v posledních šesti měsících jediný důvod, proč Roští nejelo. Doufali, jsme, že se to Scaleway podaří vyřešit, ale tyto problémy se dají dohledat v diskusích i dva roky zpátky.

Problém se projevuje tak, že server začne hlásit chyby přístupu k disku do dmesg a víme, že máme čas ho vyřešit. Připravit nový stroj, rsyncovat soubory. To se stalo třeba minulý týden v neděli. Občas ale dochází k nečekaným zásekům, kdy server zničeho nic přestane reagovat a v takovém případě je délka výpadku rovna době, kterou potřebujeme pro obnovu ze zálohy.
Server v “rebooting” stavu po půl hodině čekání

Sice jsme obnovu ze zálohy dostali na přibližně hodinu až dvě, protože jsme vypilovali postupy, ale jen s těží to je dlouhodobé řešení. Nějaký čas jsme problém řešili s podporou, ale ničeho než opravy postiženého serveru a informace, že z naší strany s tím nejde nic dělat, jsme se nedočkali.

Situaci tedy už musíme řešit. Fyzické servery už dnes nepřipadají v úvahu. Stále dva máme a i tam dochází k problémům. Minulý rok jsme řešili problémy s několika disky najednou, pak nám vypnuli elektriku v serverovně a druhý rok se jim to podařilo znovu. U fyzických serverů je problém, že k nim musíme jet a to může trvat dvě nebo tři hodiny. Pokud využijeme cloudové služby, tak se o hardware starat nemusíme a problém vyřešíme v teple kanceláře třeba tím, že nahodíme nové stroje. K fyzickému hardwaru se musíme dostat, najít problém, obstarat náhradní díly a pak server opravit.

Na ruku nám tedy minulý týden šlo DigitalOcean, které snížilo ceny. Také kurz dolaru je nyní příznivější. S DigitalOcean máme dobré zkušenosti. Když jsme u nich měli servery pro jeden velký knižní eshop, došlo tam sice k nějakým problémům, ale jednalo se ojedinělé případy, ne systémové problémy, podpora fungovala 24/7 a sedí na ní lidé, kteří mohou problém vyřešit a ne jen přebírat zprávy. I ve tři hodiny ráno tak člověk dostane rozumnou odpověď, když se něco děje. Také o problémech informují otevřeně a dávají ETA jejich vyřešení.

Na Scaleway jsme si jeden čas platili podporu, ale nakonec jsme zjistili, že tam žádný rozdíl není. I tak nám nechali server dole tři dny a telefonicky jsme se spojili s člověkem, který nám řekl to samé co napsal do ticketu, tedy že na tom pracují a neví kdy to bude.

V příštích několika týdnech se tedy přestěhujeme do DigitalOcean. Bude s tím souviset i nějaké spojování serverů. Pravděpodobně se spojí node-4 s node-5 a node-8 s node-9, protože na DigitalOcean je k dispozici větší diskový prostor. Bude se také jednat o výkonnější servery než jsou na Scaleway, takže kromě vyšší dostupnosti bude benefit i v tomto.

Prvním přeneseným serverem bude admin.rosti.cz. Následovat budou servery, které mají databázi na store4.rosti.cz a pak ty se store3.rosti.cz. Migrace bude probíhat v nočních hodinách a nemělo by dojít k výpadkům větším než několik minut. Nebude to horší než restarty serverů v minulých týdnech.

Chceme vám také poděkovat za podporu a doufáme, že tuto změnu uvítáte tak jako my.