Wszystko już działa poprawnie, poniżej można zapoznać się z całym przebiegiem incydentu
04.09.2017
Mają miejsce niekontrolowane częste restarty na węźle n20 na którym znajduje się też panel klienta v2, v3 oraz strona lvlup.pro. Jest to usterka sprzętowa.
Trwa przenoszenie usług na inne węzły tak aby wszystko zaczęło działać ponownie. Priorytetem jest obecnie strona oraz panel v2.
O sytuacji będę informować w tym wątku na bieżąco.
~05:00
Mniej więcej o tej porze zaczęły się problemy z restartami n20
11:00
Zacząłem proces przywracania panelu v2 oraz strony na inny węzeł
11:28
Utworzyłem wątek na forum aby poinformować klientów o tym incydencie
11:59
Klienci posiadający usługi na węźle n20 otrzymali e-maila z informacją o usterce wraz z linkiem do tego wątku
12:20
Udało się wystartować ponownie panel v2 oraz stronę.
Weryfikuję czy panel działa poprawnie.
12:42
Mogę potwierdzić że panel v2 oraz strona działa w pełni poprawnie.
Spostrzeżenia:
- między 10:20 a 12:30 mogą występować anomalie w statystykach (wykresach) serwerów Minecraft ze względu na brak danych między tym przedziałem czasu
- kilka klientów posiadających serwer MC mogło otrzymać kilka maili zamiast jednego dotyczącego automatycznego restartu serwera MC ze względu na “twardy start” panelu klienta
Następnym priorytetem jest przywrócenie działania VPSów z węzła n20.
12:50
Ze względu na bardzo dużą niestabilność n20 (wyłącza się po 1-3min) nie mam obecnie możliwości przeniesienia obecnych wirtualnych dysków VPSów ani zrobienia świeżej kopii zapasowej.
Podjąłem decyzję o przywróceniu VPSów z kopii zapasowych na innych węzłach.
Gdy usługi ponownie będą działać ze stanem nocnej kopii postaram się aby węzeł został naprawiony oraz aby udało się zgrać tamte dane ze stanem po 4 września 02:20 oraz bezpłatnie przywrócić je na życzenie klienta w późniejszym czasie.
12:55
Rozpocząłem przywracanie pierwszego z 12 VPSów w kolejności losowej.
13:17
Pierwszy VPS został już przywrócony i działa poprawnie.
W międzyczasie udało mi się przygotować skrypt który przyspiesza cały ten proces więc kolejne powinny pójść szybciej.
13:55
4/12 VPSów zostało przywróconych
14:24
6/12 VPSów zostało przywróconych
14:52
10/12 VPSów zostało przywróconych
15:09
Wszystkie VPSy klientów zostały przywrócone.
Osoby gdzie zostały zauważone możliwe nieprawidłowości lub konieczność zmiany konfiguracji przez klienta otrzymają stosowną informację mailem około godzin wieczornych lub szybciej jeśli będzie taka możliwość. Zachęcam też do stworzenia zgłoszenia w tej sprawie
15:13
Trwa przywracanie panelu v3 na innym węźle
15:25
Przywracanie panelu v3 jest bliskie końcowi
15:35
Panel v3 już działa, weryfikuję poprawność jego działania
15:40
Mogę potwierdzić że panel v3 działa poprawnie.
Oznacza to że wszystkie usterki zostały już naprawione
15:48
Usterka sprzętowa n20 została zgłoszona do OVH, czekam na ich odpowiedź
17:14
Uzyskałem odpowiedź od OVH że zostało zlecone sprawdzenie sprzętu
19:09
Według OVH ze sprzętem jest wszystko ok
Date 2017-09-04 18:47:03, alain F made Server check:
After checking the hardware it appear that there is no problem with it.
Server on rescue, ping ok, service are available.
05.09.2017
09:15
Ponowne próby zgrania danych zakończyły się niepowodzeniem.
Serwer nadal restartuje się niemal natychmiast przy większym obciążeniu CPU wystartowany w rescue mode.
09:43
Po reinstalacji serwer działa stabilnie bez obciążenia jednak po typowym poleceniu stress -c 8
serwer momentalnie się rebootuje.
09:51
Zgłosiłem ponownie problem sprzętowy do OVH
13:15
OVH prosi o logi tych zdarzeń, niestety takowych zdarzeń przed restartem w dzienniku systemowym po prostu nie ma.
Dodałem krótki film prezentujący instant crash przy poleceniu stress -c 8
16:20
Otrzymałem informację od OVH że weryfikują to z ich adminami
06.09.2017
11:43
Serwer jest po wymianie CPU.
Wygląda na to że działa już w porządku