Awarie 2019

Co opisujemy w tym wątku?

W tym wątku będziemy publikować informacje związane z awariami aby być transparentni względem naszych klientów co robimy w przypadkach gdy wystąpią awarie.

Jak?

Informacje w postach są aktualizowane na bieżąco poprzez ich edycję gdy sytuacja ulegnie zmianie.
Jeśli awaria jest już zażegnana, taka informacja pojawi się na samej górze posta.

Inne przydatne wątki cykliczne

5lajków

Naprawione!

Dokładny przebieg zdarzeń znajduje się niżej

n90.lvlup.pro

2019.04.05

09:29

Serwer dedykowany przestaje odpowiadać

09:40

Zlecamy restart sprzętowy

09:48

Restart sprzętowy zwraca błąd.
Wygląda to na kwestie sprzętową a nie np. zawieszenie się serwera.
Czekamy na reakcję techników OVH.

10:22

Serwer dedykowany już odpowiada na ping.

10:25

Szybkie sprawdzenie potwierdza że wszystkie VPSy na n90 są włączone i powinny działać poprawnie.

10:27

Z raportu OVH wynika że soft reboot wystarczył aby przywrócić serwer do działania.
To ciekawe, w takim razie podczas awarii musiałaby wystąpić awaria systemu do twardego restartu :thonking:

8lajków

Naprawione!

Poniżej cały przebieg zdarzeń

n102.lvlup.pro

2019.04.05

14:00

Serwer przestał odpowiadać.

14:15

Został wysłany sygnał do twardego restartu

14:17

Serwer odpowiada ponownie na ping.

7lajków

n*.lvlup.pro

17.04.2019

09:55

Zauważyliśmy że po upgrade

wszyscy klienci VPS KVM nie mogą zmieniać płyt w wirtualnym napędzie VPS’a.
Szukamy przyczyny i rozwiązania.

11:06

Zanim znajdziemy rozwiązanie w najnowszej wersji lub autorzy załatają błędy, wracamy do starszej wersji

3lajki

Naprawione!

Niektóre węzły KVM

Problem z siecią na:

  • n93
  • n109
  • n110
  • n111
  • n112
  • n113

19:54

Pojawiły się silne utraty pakietów

20:30

Sytuacja zaczyna się stopniowo poprawiać

21:06

OVH tworzy publiczny ticket na temat tej awarii dotyczącej szafy rackowej G126B22:
http://travaux.ovh.com/?do=details&id=38379

21:26

Problem wygląda na rozwiązany :partying_face:

9lajków

Naprawione!

n78.lvlup.pro

07.06.2019 12:37 - 14:05

Panel proxmox nie reagował na polecenia, nie można było też wyłączyć / włączyć serwera z naszego panelu klienta.

Włączone już wcześniej VPSy działały tak jak trzeba.

6lajków

:exclamation: Pracujemy nad tym… :exclamation:

n128.lvlup.pro

10.06.2019

16:26

Obserwujemy problem z jednym dyskiem NVMe, sprawdzamy to bliżej, będzie to wymagało wyłączenia wszystkich VPS na tym węźle

16:38

Po restarcie, dodatkowy dysk NVMe znów zaczął być widoczny, VPSy ruszyły jak trzeba.
Na pierwszy rzut oka wszystko wygląda ok.
Jako następny krok sprawdzimy w ticketach czy ucierpiały dane klientów.

7lajków

:exclamation: Pracujemy nad tym :exclamation:

n78.lvlup.pro

11.06.2019

00:05

Obserwujemy dalsze, “ciche” problemy z Proxmox na tym węźle.

Nasz system backpów zgłasza błędy więc gdy tylko obsługa będzie na nogach, postaramy się jak najszybciej ewakuować VPSy na inne węzły aby uniknąć szkód dla naszych klientów.

15:21

Próbujemy przenieść jedną z usług standardową metodą, która niestety zawodzi. Przechodzimy do planu B - sprawdzamy czy kopie zapasowe w naszym archiwum są sprawne.

15:32

Okazuje się że wszystkie kopie usług zlokalizowanych na n78 są uszkodzone :frowning: Przechodzimy do planu C - bezpośrednie przenoszenie wirtualnych dysków VPSów pomiędzy węzłami.

15:50

Pierwsza z przeniesionych usług działa poprawnie. Powoli rozpoczynamy migrację kolejnych usług tą metodą.

17:05

30% usług zostało przeniesionych

17:25

50% usług zostało przeniesionych

17:50

75% usług zostało przeniesionych

18:27

W trakcie przenoszenia ostatniej usługi, n78 przestał odpowiadać.

18:30

Otrzymujemy informację od OVH o rozpoczętej interwencji na węźle.

18:51

Interwencja zakończona, węzeł został podniesiony do życia poprzez łagodny reboot. Obsługa ponownie rozpoczyna przenoszenie ostatniej usługi.

18:59

100% usług na n78 zostało ewakuowanych na inne węzły

Po przerwie zerkniemy czy interwencja na węźle przywróciła go do pełnej sprawności czy też nadal występuje jakiś problem.

7lajków