Usterka n20.lvlup.pro oraz strony i panelu lvlup.pro

Wszystko już działa poprawnie, poniżej można zapoznać się z całym przebiegiem incydentu

04.09.2017

Mają miejsce niekontrolowane częste restarty na węźle n20 na którym znajduje się też panel klienta v2, v3 oraz strona lvlup.pro. Jest to usterka sprzętowa.

Trwa przenoszenie usług na inne węzły tak aby wszystko zaczęło działać ponownie. Priorytetem jest obecnie strona oraz panel v2.
O sytuacji będę informować w tym wątku na bieżąco.

~05:00
Mniej więcej o tej porze zaczęły się problemy z restartami n20

11:00
Zacząłem proces przywracania panelu v2 oraz strony na inny węzeł

11:28
Utworzyłem wątek na forum aby poinformować klientów o tym incydencie

11:59
Klienci posiadający usługi na węźle n20 otrzymali e-maila z informacją o usterce wraz z linkiem do tego wątku

12:20
Udało się wystartować ponownie panel v2 oraz stronę.
Weryfikuję czy panel działa poprawnie.

12:42
Mogę potwierdzić że panel v2 oraz strona działa w pełni poprawnie.
Spostrzeżenia:

  • między 10:20 a 12:30 mogą występować anomalie w statystykach (wykresach) serwerów Minecraft ze względu na brak danych między tym przedziałem czasu
  • kilka klientów posiadających serwer MC mogło otrzymać kilka maili zamiast jednego dotyczącego automatycznego restartu serwera MC ze względu na “twardy start” panelu klienta

Następnym priorytetem jest przywrócenie działania VPSów z węzła n20.

12:50

Ze względu na bardzo dużą niestabilność n20 (wyłącza się po 1-3min) nie mam obecnie możliwości przeniesienia obecnych wirtualnych dysków VPSów ani zrobienia świeżej kopii zapasowej.

Podjąłem decyzję o przywróceniu VPSów z kopii zapasowych na innych węzłach.

Gdy usługi ponownie będą działać ze stanem nocnej kopii postaram się aby węzeł został naprawiony oraz aby udało się zgrać tamte dane ze stanem po 4 września 02:20 oraz bezpłatnie przywrócić je na życzenie klienta w późniejszym czasie.

12:55

Rozpocząłem przywracanie pierwszego z 12 VPSów w kolejności losowej.

13:17

Pierwszy VPS został już przywrócony i działa poprawnie.
W międzyczasie udało mi się przygotować skrypt który przyspiesza cały ten proces więc kolejne powinny pójść szybciej.

13:55

4/12 VPSów zostało przywróconych

14:24

6/12 VPSów zostało przywróconych

14:52

10/12 VPSów zostało przywróconych

15:09

Wszystkie VPSy klientów zostały przywrócone.
Osoby gdzie zostały zauważone możliwe nieprawidłowości lub konieczność zmiany konfiguracji przez klienta otrzymają stosowną informację mailem około godzin wieczornych lub szybciej jeśli będzie taka możliwość. Zachęcam też do stworzenia zgłoszenia w tej sprawie

15:13

Trwa przywracanie panelu v3 na innym węźle

15:25

Przywracanie panelu v3 jest bliskie końcowi

15:35

Panel v3 już działa, weryfikuję poprawność jego działania

15:40

Mogę potwierdzić że panel v3 działa poprawnie.

Oznacza to że wszystkie usterki zostały już naprawione :slight_smile:

15:48

Usterka sprzętowa n20 została zgłoszona do OVH, czekam na ich odpowiedź

17:14

Uzyskałem odpowiedź od OVH że zostało zlecone sprawdzenie sprzętu

19:09

Według OVH ze sprzętem jest wszystko ok

Date 2017-09-04 18:47:03, alain F made Server check:
After checking the hardware it appear that there is no problem with it.

Server on rescue, ping ok, service are available.

05.09.2017

09:15

Ponowne próby zgrania danych zakończyły się niepowodzeniem.
Serwer nadal restartuje się niemal natychmiast przy większym obciążeniu CPU wystartowany w rescue mode.

09:43

Po reinstalacji serwer działa stabilnie bez obciążenia jednak po typowym poleceniu stress -c 8 serwer momentalnie się rebootuje.

09:51

Zgłosiłem ponownie problem sprzętowy do OVH

13:15

OVH prosi o logi tych zdarzeń, niestety takowych zdarzeń przed restartem w dzienniku systemowym po prostu nie ma.
Dodałem krótki film prezentujący instant crash przy poleceniu stress -c 8

16:20

Otrzymałem informację od OVH że weryfikują to z ich adminami

06.09.2017

11:43

Serwer jest po wymianie CPU.
Wygląda na to że działa już w porządku

5 polubień

@SystemZ czy była by możliwość włączenia serwera ip: 5.196.168.254 na Hoście n26.lvlup.pro ? Bo wyłączyłem go przed awarią panelu i nie mogę go włączyć a jest to dosyć pilne :smiley:

Pozdrawiam

@krzys1540 panel v2 już działa więc bez przeszkód powinieneś mieć możliwość jego włączenia.

1 polubienie

@SystemZ Super :smiley: Już jest ok !

No i znowu szybka i sprawna reakcja! Dziękuję za naprawę panelu.

No nie wiem, serwer cały czas się wyłącza. Jestem dobrej myśli.

Bardzo lubię czytać taką dokumentację :smiley:
Świadczy to o pełnym profesjonaliźmie

Wydaje się być już ok,
EDIT vps wyłączył się po kilku minutach

stats.lvlup.pro nie działa :confused:
HTTP ERROR 502 - BAD GATEWAY

Ta strona to status.lvlup.pro, a jest jeszcze inna strona stats.lvlup.pro :wink:

sorry jestem zmęczony mój błąd

stats.lvlup.pro to część panelu v3.
Panel v3 jeszcze nie został ponownie włączony.

Mam pytanie do @SystemZ ,kiedy byś był w stanie odpisać na zgłoszenia w pomocy? Bo pilnie chciałbym kupić VPS (z serwera n65).

To mi się podoba :slight_smile: Szybka reakcja :slight_smile:

Wszystkie zgłoszenia są pilne.
Odpowiedź na zgłoszenia klientów będzie kontynuowana standardowo po usunięciu wszystkich usterek.

@SystemZ A zostaną dzisiaj naprawione usterki? Czy nie możesz tego określić?

Wszystko jest już naprawione, cały przebieg znajdziesz w pierwszym poście.
Odpowiedzi na większość zgłoszeń powinny być udzielone jeszcze dziś.

@SystemZ Dziękuje za szybkie doinformowanie mnie. :slight_smile:

A czy OVH już odpowiedzieli na problem z n36 w maju?

To było dość dawno, jeśli pamięć mnie nie myli to odpisali i naprawili jednak w takich przypadkach zazwyczaj już usuwam taki węzeł ze względu na komfort klientów aby ponownie nie przenosić i nie wyłączać ich usług.

Z n20 będzie podobnie, zostało już oznaczone jako do usunięcia, nie będą już na nim świadczone usługi VPS.
Postaram się jednak wyciągnąć o ile się uda obecne pliki.

2 polubienia