Trápí nás Btrfs :-(

Když jsme začali před rokem a kousek pracovat s Dockerem, postupně jsme si vybudovali vztah k souborovému systému Btrfs, který uměl vše co jsme potřebovali. Snapshoty, quoty, roztahoval se na více blokových zařízení a byl rychlý a odolný vůči výpadkům díky COW. Rozhodnutí Btrfs použít nás ale nakonec dostalo do tohoto bodu. Měli jsme dnes další neplánovaný výpadek.

Více než půl roku používáme Btrfs na zálohování dat. Snapshoty nám hodně to ulehčily udržování více verzí jedněch dat. Používáme Btrfs několik let i na desktopech a noteboocích, kde vyvíjíme administraci. V kombinaci s Dockerem nás ale už několikrát vypeklo. Před dvěma dny začalo stoupat iowait na hlavním serveru pro novou administraci a nedařilo se nám zjistit čím to je. Měli jsme v plánu problém pořádně prozkoumat v noci, až bude provoz na serveru minimální, ale dneska večer, kolem 22:00 stoupl load serveru na 180 a kontejnery přestaly reagovat. Monitoring nás upozornil a hned jsme na odstraňování problému začali pracovat.

Až po pádu jsme zjistili, že došlo k poškození souborového systému s daty kontejnerů a to byl také důvod, proč na serveru začal původně stoupat load. Podařilo se nám souborový systém odpojit, ale nepodařilo se nám ho bez restartu serveru opravit.

Rozhodli jsme se Btrfs nadobro opustit. Vrátíme se zpět k Ext4 a jako storage backend pro Docker použijeme buď autfs nebo overlayfs. S obojím máme zkušenosti, ale musíme provést nejdříve pár testů, abychom vybrali správně.

Držte nám palce. Psali jste nám během výpadku a my vám hned odpovídali. Byli jste rádi, že s vámi komunikujeme a že na odstranění problému pracujeme. To je v těchto chvílích velká vzpruha a víme, že to co děláme, děláme správně. Tak nám zůstaňte věrní, tohle společně zvládneme.