Problémy s disky

Těžko se o takovýchto situacích píše, ale napsat o nich musíme. V jednom ze serverů, které provozujeme, začaly odcházet oba disky v RAID 1 najednou. Server patří k těm starším co máme a i když jsme vydrželi datově bez úhony, nevyhnuli jsme se výpadku.

Celá situace proběhla velmi rychle. Dostali jsme notifikaci, že na jednom z disků se začínají objevovat chybné sektory. Disk jsme odstranili z pole a začali zařizovat disky nové. Máme už delší dobu plán rozšířit kapacity jednoho z nových serverů, který pojme dva naše nejstarší, takže jsme plán jen urychlili.

Chvíli jsme řešili problémy se šroubky a šuplíky, ale než bylo všechno připraveno, začaly se objevovat problémy na druhém disku. Měli jsme připraveny zálohy, ale se zálohama se to má tak, že je nemáme real time, takže když je obnovíme, uživatelé přijdou o část dat mezi dobou zálohy a aktuálním časem.

Rozhodli jsme se situaci ještě zkusit zachránit a virtuální servery přesunout pomalu, s rozvahou a bez velkých neplánovaných výpadků. Disk ještě fungoval, i když občas nemohl nějaký sektor přečíst. Koupili jsme k serveru externí disk, připojili ho přes USB 3.0 a přidali do pole. Přesně v ten moment došlo k poškození obrazů některých virtuálních serverů. Nejvíce byl zasažen jeden ze serverů mimo veřejné Roští, který jsme museli také jako jediný obnovit ze zálohy. Všechna ostatní data se podařilo dostat ven.

Výpadek nového Roští byl v sobotu pod jednu hodinu. Problém totiž zasáhl databáze, kterým jsme dávali prioritu a protože jich není tolik, přestěhovaly se rychle. Hned potom jsme se vrhli na poštu a zmíněný virtuální server. Pošta neběžela kolem šesti hodin někdy od 17 do 23. O emaily uživatelé nepřišli, čekaly ve frontě na serveru, ze kterého měly přijít.

O stavu postiženého serveru a řešení jsme informovali po půlhodinách na Twitteru a naší homepage.

Aby toho nebylo málo, druhý den začal zlobit server alpha-node-2, se kterým máme dlouhodobé problémy. Nicméně jsme přišli na to, co se na něm děje a v nejbližších dnech to vyřešíme. Skript, který měl pomoci s diagnostikou se bohužel ukázal jako problémový, takže musíme opatrně.

Ve stejný týden jsme ještě měli problém s dalším serverem, který ovlivnil jen nové Roští. V serverovně nám dali špatné zásuvky v PDU. Přišli jsme na to náhodou, ale vysvětlily se tím restarty, ke kterým v posledních třech měsících docházelo. Nyní máme nové zásuvky a tak je to také vyřešeno.

Výpadků nám je líto, ale každý takový problém nám pomáhá se posunout dopředu. Celé nové Roští je nyní na novém hardwaru. Zbytek starého Roští čeká migrace během víkendu. Na problémovém serveru už teď nic neběží.

V blízké budoucnosti bychom chtěli prozkoumat možnosti běhu Roští mimo náš vlastní hardware a upravíme zálohování tak, abychom měli k dispozici čerstvější data a hlavně rychleji dostupná.

Problémy s alpha-node-2 by měly být tento týden dočasně vyřešené a do administrace právě implementujeme vlastnost, která by je měla odstranit napořád.

Víme, že Roští ještě není dokonalé a že má své mouchy. Omlouváme se za potíže, které vám tyto problémy způsobily a doufáme, že kroky, které jsme podnikli, vás přesvědčí, že se tyto problémy nebudou opakovat.