W tym wątku będziemy publikować informacje o awariach oraz o zaplanowanych przerwach w działaniu usług lvlup.pro.
Oprócz informacji na serwerze Discord (kanał #monitoring) opisujemy pełny przebieg awarii w pełni publicznie na forum, tak aby każdy mógł się z nimi zapoznać. Tutaj również podajemy naszym klientom informacje o zaplanowanych przerwach technicznych.
W wątku postować może obsługa lub ewentualnie nasze roboty.
Obecnie węzeł jest już sprawny, usługi działają poprawnie. Poniżej przebieg awarii.
24.05.2022 11:06 - 14:21
11:06
Węzeł przestaje odpowiadać na ping.
11:15
Otrzymujemy od OVH mail z informacją o niedługim rozpoczęciu interwencji. Na wszelki wypadek zerkamy w logi, lecz nie widzimy nic podejrzanego, po prostu kontakt z węzłem w pewnym momencie urywa się.
12:15
Jako że nie otrzymaliśmy dalszych informacji o tym czy prace zostały rozpoczęte, próbujemy zerknąć co dzieje się na węźle. Niestety konsola KVM nie odpowiada, restart KVM kończy się błędem. Restart “twardy” węzła również nie jest dostępny.
13:30
Po kilkukrotnym powrocie i zaniku pingu wnioskujemy że prace nadal trwają. To zdecydowanie wygląda na problem po stronie sprzętowej, dłuższa wymiana może oznaczać problemy z płytą główną.
14:21
Otrzymujemy maila z informacją że interwencja została zakończona. Tak jak się tego spodziewaliśmy, dłuższa awaria wynikła z wymiany płyty głównej.
14:22
Wstępnie oceniamy czy węzeł rzeczywiście działa poprawnie - widzimy że VPSy poprawnie się włączyły i wszystko wydaje się działać tak jak powinno.
16:22
Obserwowaliśmy węzeł, wszystko wygląda na to że awaria została rozwiązana wraz z wymianą płyty głównej. Przechodzimy do pozostałych spraw, tj. poinformowania klientów których usługi znajdowały się na węźle drogą mailową oraz wydania rekompensaty za niedostępność.
Obecnie węzeł jest już sprawny, usługi działają poprawnie. Poniżej przebieg awarii.
15.08.2022 09:04 - 13:05
09:04
Monitoring informuje nas o utracie pingu przez węzeł.
09:08
Otrzymujemy mail od OVH odnośnie rozpoczęcia prac technicznych.
10:35 - 12:51
Dzięki monitoringowi widzimy że ping kilkukrotnie wraca i zamiera. Jako że prace trwają dłużej niż godzinę to zakładamy że problem leży po stronie sprzętowej.
12:58
Kolejny mail od OVH, tym razem z informacją o zakończeniu prac technicznych. Ponownie problemem była płyta główna która została wymieniona.
13:02
Węzeł wraca do życia.
13:05
Na szybko oceniamy czy węzeł rzeczywiście wstał - na szczęście wszystko wygląda tak jak powinno.
17.08.2022 ~15:00
Przydzielenie ważności klientom których usługi zostały dotknięte awarią, odpisanie na zgłoszenia oraz wstępne przygotowanie informacji odnośnie samej awarii.