Awarie 2020

Awarie

W tym wątku będziemy publikować informacje o awariach.

W ten sposób nasi klienci będą mieć szybszy dostęp do informacji że coś może być nie tak z ich usługami.
Oprócz obsługi w tym wątku mogą pisać także nasze roboty które wykryją nieprawidłowości w działaniu naszych usług.

Warto zobaczyć

Wątek w którym piszemy z wyprzedzeniem o zaplanowanych przerwach technicznych oraz na bieżąco o wprowadzonych zmianach

2lajki

W tym wątku może pisać tylko obsługa

Naprawione :white_check_mark:

Poniżej pełny przebieg zdarzeń

21.02.2020

14:02

Na części z węzłów kolekcja obrazów .iso jest niedostępna.

Według logów ta sytuacja mogła mieć miejsce od 21.02.2020 ~06:00
Lista dotkniętych węzłów poniżej:

n142	
n119	
n102	
n112	
n130	
n88	
n87	
n76	
n93	
n148	
n137	
n135	
n144	
n143	
n145	
n82	
n92	
n124	
n123	
n121	
n113

14:38
Kolekcja będzie niedostępna kilka minut na wszystkich węzłach, powinna wtedy wrócić i być sprawna na wszystkich.

14:46
Kolekcja powinna już działać na wszystkich węzłach.
Weryfikujemy to.

15:15
Wszystko już działa, przy okazji trochę zwiększyliśmy niezawodność na przyszłość.
Ulepszyliśmy też monitoring tego konkretnego przypadku aby móc szybciej reagować na takie błędy.

4lajki

:white_check_mark: Naprawione

Obecnie wszystko już działa, poniżej możecie przeczytać pełny przebieg zdarzeń.

VPSy na n148.lvlup.pro

Po ticketach i forum wygląda na to że dzieje się coś nie tak z VPSami na n148

22.02.2020

~16:00
Większość VPSów na n148 nie działa poprawnie

16:35
Sprawdzamy to

16:43
Pełna aktualizacja systemu na wszelki wypadek

16:46
Wykonanie łagodnego restartu węzła

16:50
Węzeł poprawnie się uruchomił

16:58
Poinformowanie mailem o restarcie 4 klientów których to dotyczyło

17:01
Po niecałych 10 minutach uptime jednego z VPS, problem się powtarza.
W Proxmox widoczne jest:

Status: running (internal-error)

17:07
Ustalamy wstępnie że jest to błąd sprzętowy n148.
VPSy muszą zostać przeniesione na inne węzły

17:39
1/4 VPSy przeniesione

17:51
2/4 VPSy przeniesione

18:30
3/4 VPSy przeniesione

18:34
Wszystkie VPS ewakuowane z n148 i powinny już działać bez przeszkód.
Następnym krokiem będzie diagnoza i ewentualna naprawa sprzętu na n148 gdy już nie ma na nim klientów.

24.02.2020

13:49
Zaczynamy sprawdzanie węzła

14:05
Tryb rescue nie działa, czekamy na odpowiedź od OVH

28.02.2020

03:50
Po testach nie znaleźliśmy niczego niepokojącego.
Węzeł n148 wraca do realizowania zamówień ale w ograniczonym zakresie, będziemy go obserwować.
Normalnie zastąpilibyśmy go innym sprzętem ale ta oferta serwerów nie jest już dostępna w OVH i mamy ograniczony wybór a musimy jeszcze póki co realizować zamówienia na dotychczasowych warunkach.

6lajków

Możliwe utrudnienia z licencjami FiveM.

Nie dotyczy to wszystkich klientów, trudno nam określić kogo dokładniej.
Problem występował już wcześniej:

Zapewniano nas wcześniej że wystarczy jak klienci napiszą maila a oni to naprawią:
https://forum.cfx.re/t/banning-vps-hostings/826090/4?u=systemz

Ich moderacja ogólnie też nie napisała żadnych przydatnych rzeczy w tej sytuacji, nie otrzymałem żadnego rozsądnego wsparcia na ich forum:
https://forum.cfx.re/t/need-more-precision-of-servers-how-will-be-unbanned/826185/4?u=systemz

Niestety nadal otrzymujemy sygnały od klientów niezadowolonych z decyzji ekipy tworzącej moda więc postanowiłem zebrać info oraz napisać maila w imieniu naszych klientów.
Mam nadzieję na rozsądną reakcję z ich strony tak aby wszystkie trzy strony były zadowolone.

Jeśli nie uzyskamy odpowiedzi w ciągu tygodnia, będziemy wysyłać tego samego maila na każdą skrzynkę którą znajdę w ich domenie w odstępie 1 tygodnia aż otrzymamy dowolną odpowiedź od żywego człowieka która nie wygląda jak gotowy szablon.

Postaram się na bieżąco uzupełniać całą korespondencję by zachować transparentność wobec naszych klientów.

W przypadku gdy wyczerpiemy listę skrzynek rozważymy alternatywy tak aby w legalny sposób nasi klienci nie odczuwali tego problemu. Mamy już przynajmniej kilka takich sposobów jednak zanim zaczniemy używać alternatywnych rozwiązań chcę uzyskać od nich oficjalne stanowisko.

Bierzemy pod uwagę drogę prawną jako że według mnie może być to świadome ograniczanie konkurencji na rynku. Wiadomo że takie rzeczy trwają dużo czasu więc to raczej ostateczność, chcemy wszystko załatwić jak ludzie, polubownie.

Subject: VPS provider blocked/banned - lvlup.pro
To: pr at fivem.net
Body:

Hello,

I'm the owner of the VPS service provider known as LVL UP - https://www.lvlup.pro/en
You can verify it by looking at domain sending this email and also on government site which lists all companies in Poland:
https://prod.ceidg.gov.pl/CEIDG/CEIDG.Public.UI/SearchDetails.aspx?Id=3a088816-6972-4134-ab86-f0ec4ea52276

Quick information about us.
Since 7 years we are selling hosting services.
We fulfilled over 22 000 orders and responded to over 24 000 tickets.
All stats are live on our dashboard: https://stats.lvlup.pro

I'm contacting you regarding getting a lot of tickets from my customers about FiveM bans.
For some customers FiveM works OK, for others not so much.

One of our community member was reassured that all bans are being removed in this topic:
https://forum.cfx.re/t/banning-vps-hostings/826090
I also written about situation on forum:
https://forum.cfx.re/t/need-more-precision-of-servers-how-will-be-unbanned/826185/9?u=systemz
Unfortunately, a lot of time has passed and it is still a problem.
Bans are regularly applied without providing us the reasons.

Our customers are writing emails about bans but:
- they are not getting any response or
- response take weeks or
- they receive denials to remove ban

Example #1
This part from one of our tickets
> Kontakt z twórcami gry jest strasznie ciężki, napisałem do nich 3 maile (w tym jednego 4 miesiące temu). Na żaden mail nie dostałem odpowiedzi...

EN translation:
Contact with authors is very hard, I written 3 emails and one 4 months ago. No response for all of them.

Example #2
This is from our forums:
> https://forum.lvlup.pro/t/ban-od-fivema-na-serwer/13104/9?u=systemz

EN translation:
So far FiveM is not informing me for about 34 hours, I know that is yours (lvlup.pro) fault, VPS was bought in genuine and legal way and they (fivem) always make problems and want to promote ZAP which is the worst VPS.

Example #3
Part of one ticket.
>Niedługo chciałem robić start mojego serwera Fivem ,A tu się nagle okazuje że nasz VPS został zablokowany.
>Tak to jest płatna wersja klucza dzięki której można dodać na serwer wiele rzeczy ,które nie są dostępne w darmowej wersji klucza.

EN translation:
I wanted to launch our fivem server soon but our VPS was blocked.
Yes, it's paid key which offers many features that are not available in free version

We aren't in business selling game servers. We aren't GSP, yet we are banned.
We sell VPS that are designed to run game servers, we don't manage customer's OS or apps in any way other that provide clean, cloud based image of Ubuntu / Debian.
I read EULA multiple times, I don't see any point that we broke.
If I'm missing something, please let me know and we will fix it.
I'm counting on our cooperation.

Best Regards
Michał Frąckiewicz

---
LVL UP - https://lvlup.pro
ul. Cyfrowa 6
71-441 Szczecin
NIP: 7412110339
REGON: 321345466

EDIT 14:42 11.03.2020
Brak odpowiedzi.
Email wysłany również na support :monkey_face: fivem.net

EDIT 15:57 16.03.2020
Brak odpowiedzi.
Email wysłany również na thiscamefrom :monkey_face: fivem.net
Zgodnie z oczekiwaniami nie jest to istniejący mail lecz adres nadawcy do powiadomień z ich forum

Jeszcze raz wysłałem kopię na support :monkey_face: fivem.net

EDIT 16:12 16.03.2020
Kopię maila wkleiłem również na ich forum.
Obecnie wątek czeka na zatwierdzenie przez ich moderację.

EDIT 15:11 21.03.2020
Otrzymaliśmy odpowiedź z pytaniem o nasze adresy IP.

13lajków

:white_check_mark: n102.lvlup.pro

Usługi zlokalizowane na n102 są już ponownie dostępne.
Poniżej cały przebieg zdarzeń.

05.03.2020

8:23

Węzeł traci kontakt z siecią

~8:30

Po sprawdzeniu zewnętrznie zapisanych logów, ostatnie chwile przed rozłączeniem nie wskazują na awarię

8:35

Zlecamy hard reboot

8:43

Hard reboot nie zadziałał.
Całkiem możliwe że to problem sprzętowy np. awaria zasilacza.
Czekamy na reakcję techników OVH.

09:07

Serwer odzyskał sprawność.
Przyczyną był wadliwy port na switchu dostępowym.

Notka od technika:

Network connector
Date 2020-03-05 09:04:24 CET (UTC +01:00), aimeric S made Network connector:
 Operation details:
There was an issue with the switchport. whe have corrected the issue.

The server is booted on disk and is on the login screen. Ping OK and services are up.

09:15

Klienci dotknięci tą usterką zostali poinformowani mailowo.

5lajków

:white_check_mark: n148.lvlup.pro

Usługi są już sprawne, zostały przeniesione na n149.lvlup.pro.
Poniżej pełny przebieg zdarzeń.

15.03.2020

15:30

Zauważyliśmy że powtarza się problem ze stabilnością VPS na n148

15:50

Awaryjnie zakupiliśmy i już otrzymaliśmy nowy węzeł aby przenieść tam klientów dotkniętych tą awarią.
Następny krok to konfiguracja węzła (<1h).

16:15

Kończymy konfigurację węzła n149 który jest przeznaczony dla klientów VPS na n148

16:19

n149 jest już w 100% gotowy do przyjęcia VPS

16:22

Planujemy procedurę odnośnie przenoszenia wszystkich VPS z n148 na n149

16:37

Zaczęliśmy przenosić VPSy klientów

17:05

Około połowa VPSów została przeniesiona na n149

17:35

Wszystkie VPSy z n148 zostały przeniesione na n149 więc już działają poprawnie

18:27

Wszyscy klienci dotknięci awarią otrzymali +24h ważności usługi

20:00

Wszyscy klienci dotknięci awarią otrzymali e-mail wspominający o awarii oraz linkujący do tego posta

17.03.2020

10:53

Technicy OVH sprawdzają sprawność n148

5lajków

:white_check_mark: n107.lvlup.pro

Usługi klientów na n107.lvlup.pro poprawnie kontaktują się ze światem.
Pełny przebieg zdarzeń poniżej.

15.03.2020

21:48

Wystąpił problem z siecią dla jednego z VPS na n107.
Sieć dla tego VPS przestała działać całkowicie.

22:34

Adres IP tego VPS działa poprawnie poza węzłem n107.
VPS po migracji na inny węzeł działa poprawnie.

22:46

Sprawdziliśmy na wszelki wypadek wszystkie adresy IP dla n107.
Ustaliliśmy że problem ten może też występować na 3 innych VPS.

23:00

Migrujemy drugi VPS z tym problemem.

23:06

Migracja drugiego VPS zakończona.
Wszystko wygląda poprawnie

23:17

Utworzyliśmy ticket w SYS/OVH dotyczący tego problemu z siecią gdyż nie posiadamy obecnie już więcej zasobów aby dokonać migracji pozostałych dwóch klientów na inne węzły.

16.03.2020

~15:00

Przemigrowaliśmy dwóch klientów którzy do tej pory zgłosili nam występujący problem z siecią.

17.03.2020

~07:00

Automatyczne testowanie adresów IP zatwierdza dwa wolne adresy na n107 jako działające.

12:45

Obsługa zauważa brak odrzuconych adresów IP dla n107 z porannego testowania. Po bliższym przyjrzeniu się potwierdziliśmy że problem z siecią już nie występuje.

4lajki

:white_check_mark: Włączanie VPS

Problem z ponownym startem VPS został rozwiązany poprzez aktualizację i restart prawie wszystkich węzłów co było bolesne ale konieczne :frowning:

Poniżej pełny przebieg zdarzeń

Lista węzłów które zostały już zrestartowane

Węzły FR

  • n76.lvlup.pro
  • n80.lvlup.pro
  • n81.lvlup.pro
  • n82.lvlup.pro
  • n84.lvlup.pro
  • n85.lvlup.pro
  • n87.lvlup.pro
  • n88.lvlup.pro
  • n90.lvlup.pro
  • n92.lvlup.pro
  • n93.lvlup.pro
  • n94.lvlup.pro
  • n95.lvlup.pro
  • n96.lvlup.pro
  • n97.lvlup.pro
  • n99.lvlup.pro
  • n100.lvlup.pro
  • n101.lvlup.pro
  • n102.lvlup.pro (nie wymagał restartu)
  • n103.lvlup.pro
  • n107.lvlup.pro
  • n108.lvlup.pro
  • n109.lvlup.pro
  • n110.lvlup.pro
  • n111.lvlup.pro
  • n112.lvlup.pro
  • n113.lvlup.pro
  • n114.lvlup.pro
  • n117.lvlup.pro
  • n118.lvlup.pro
  • n119.lvlup.pro
  • n120.lvlup.pro
  • n121.lvlup.pro
  • n122.lvlup.pro
  • n123.lvlup.pro
  • n132.lvlup.pro
  • n133.lvlup.pro
  • n142.lvlup.pro
  • n145.lvlup.pro
  • n146.lvlup.pro (nie wymagał restartu)
  • n147.lvlup.pro (nie wymagał restartu)

Węzły PL

  • n124.lvlup.pro
  • n127.lvlup.pro
  • n128.lvlup.pro
  • n129.lvlup.pro
  • n130.lvlup.pro
  • n131.lvlup.pro
  • n135.lvlup.pro
  • n136.lvlup.pro
  • n137.lvlup.pro
  • n138.lvlup.pro
  • n139.lvlup.pro
  • n140.lvlup.pro
  • n143.lvlup.pro
  • n144.lvlup.pro
  • n148.lvlup.pro (nie wymagał restartu)
  • n149.lvlup.pro (nie wymagał restartu)
  • n150.lvlup.pro (nie wymagał restartu)

25.03.2020

18:39

Widzimy pierwsze zgłoszenia tego błędu

18:55

Przyglądamy się n127

19:00

Wygląda to na błąd po stronie Proxmox / systemd.
Plan zakłada aktualizację węzłów których dotyczy ten problem, następnie ich restart.
Aktualnie sprawa z błędem dotyczy około 6 osób jednak reboot dotyczy dużo więcej osób.

Aktualnie są godziny szczytu więc dodamy mały moduł do panelu v4 aby przynajmniej wysłać maila do każdej osoby na węźle kilka minut zanim dokonamy reboota.
Dodanie tego kodu nie powinno zająć dłużej niż 20 min.

19:56

Panel został zaktualizowany, weryfikujemy czy funkcja do mailingu działa poprawnie

20:04

System mailingu działa poprawnie.
Przygotowujemy wiadomość do klientów i ustalamy terminy restartów.

20:07

Wysłaliśmy pierwszą partię maili do klientów których usługi są na węzłach n127 oraz n88. Restart został zaplanowany na godzinę 20:15

20:24

Restart się przeciąga.
Jako że systemd zarządza wszystkim a nie odpowiada to komplikuję sprawę.

20:37

Jesteśmy zmuszeni do hard reboot.
Żaden znany nam sposób na łagodny reboot nie zadziałał.

20:42

Hard reboot na n127 i n88 powiódł się.
VPSy wystartowały.

20:47

Monitorujemy sytuację i planujemy kolejne restarty uwzględniając zdarzenia z poprzednich dwóch.

21:35

Wysłaliśmy drugą partię maili. Następny restart został zaplanowany na godzinę 21:50 dla węzłów: n109, n139, n129, n132, n120, n94, n121, n137, n103

22:02

Węzły podane wyżej są już po restarcie, VPSy na tych węzłach powinny już działać.

22:10

Ustaliliśmy które węzły nie wymagają restartu - zostały one odznaczone i dodatkowo opisane.

22:43

Wysłaliśmy mailing do klientów którzy mają usługi zlokalizowane na pozostałych polskich węzłach:
n124, n128, n130, n131, n135, n136, n138, n140, n143, n144
Zaplanowany czas restartu: 23:00

23:16

Wszystkie węzły w polskiej lokalizacji są już po restarcie.
Zarządzamy godzinę przerwy dla obsługi w celu przegrupowania sił.

26.03.2020

00:03

Kolejny mailing dotyczący restartu węzłów od n76 do n100 włącznie (z pominięciem n88 i n94 które zostały zrestartowane wcześniej). Restart został zaplanowany na 0:15

00:34

Wyżej wspomniane węzły pomyślnie zrestartowane

00:40

Ostatni mailing i ostatnia fala restartów, dotycząca węzłów: n101, n107, n108, n110, n111, n112, n113, n114, n117, n118, n119, n122, n123, n133, n142, n145
Restart zaplanowano na 0:50

01:08

Ostatnia fala restartów została pomyślnie zakończona.

01:13

Ostatnie weryfikacje czy obsługa nie przeoczyła jakiegoś węzła.

Dodatkowe informacje w postaci post-mortem (lub inaczej retrospekcja awarii) pojawią się później po dokładniejszej analizie.

01:24

Wygląda ok.
Wszystkie węzły działają obecnie prawidłowo.

Może się pojawić potrzeba ponownego restartu jednak w tym wypadku nie powinno być potrzeby tak nagłego restartu. Mam nadzieję że będziemy mieli możliwość poinformować przynajmniej tydzień przed zdarzeniem. Tu niestety nie mieliśmy tego czasu podczas gdy coraz więcej klientów miało niedziałającą usługę.

17:05

Dodanie przez obsługę +24h do ważności usług które zostały zrestartowane.

13lajków

:white_check_mark: Panel klienta v4

Wszystko już działa.
Poniżej pełen przebieg zdarzeń.

30.03.2020

17:14

Aktualnie panel klienta v4 jest niedostępny.
Pracujemy nad przywróceniem

17:22

Pierwsza szybka łatka zrobiona, czekamy na jej wrzucenie na serwer

17:33

Pierwsza łatka nie do końca rozwiązała problem, próbujemy innego rozwiązania

17:34

Druga łatka przygotowana, czekamy na wdrożenie

17:36

Druga łatka też nie działa, trzecia wyłącza jedną z mniej ważnych funkcjonalności dla obsługi jednak powinna rozwiązać obecny problem do czasu przepisania tej funkcji.
Czekamy na wdrożenie czyli około 5 min

17:46

Trzecia łatka na produkcji, obserwujemy.

17:51

Jest ok.
Między 17:33 a 17:46 panel v4 mógł działać wolniej ale być dostępny gdyż obecna konfiguracja zakłada trzy instancje panelu.

4lajki

:white_check_mark: Sieć na n146 i n147

Wszystko wydaje się już działać poprawnie.
Poniżej pełny przebieg zdarzeń.

30.03.2020

17:07

Sieć OVH ma jakiś problem:

Panel v2 ma łączność z n146 i n147, jednak Panel v4 nie.
Wygląda na to że wewnętrzna łączność między serwerami w OVH nie do końca działa jak powinna.

18:05

Problem z siecią już nie występuje.

4lajki

:hammer_and_wrench: Długa kolejka zamówień FR

Jako że nasze zasoby RAM są gwarantowane, oznacza to że szansa na problemy z wydajnością dla naszych klientów jest minimalna. Powoduje to też że musimy mieć 100% pokrycia w sprzęcie co w przypadku bardzo dużego zainteresowania wydłuża czas realizacji, czyli trzeba poczekać ale warto.

Celujemy w czas realizacji usługi mniejszy niż 24h, idealnie w 15 min.
Niestety nasza kolejka FR pobiła wszystkie wewnętrzne rekordy i czas realizacji jest teraz znacznie wydłużony. Robimy co możemy żeby przyspieszyć realizację zamówień jednocześnie nie zmniejszając wydajności obecnym klientom.
W tym poście znajdziecie pełen przebieg jak ma się sytuacja i co robimy w tym kierunku, aktualizowane na bieżąco.

31.03.2020

15:24

Obecnie brakuje nam 184 GB RAM na realizację zamówień FR.
Najstarsze zamówienie czeka prawie 4 dni.
Potrzebujemy więcej węzłów GAME-3 FR z SYS, przynajmniej 4.

Podsumowanie kroków które zrobiliśmy do tego czasu aby polepszyć sytuację:

  • usunęliśmy nasze prywatne VPSy FR
    • zwolnienie kilka GB miejsca dla klientów
  • napisaliśmy do naszego opiekuna w OVH
    • niestety on nie ma wpływu bezpośrednio na SYS
  • utworzyliśmy ticket w SYS
    • ticket zniknął z ich panelu po 1-2 dniach
  • dzwoniliśmy do SYS
    • po rozmowie wynika że ten ticket odnośnie zamówienia GAME-3 tylko nam w panelu zniknął, obsługa to widzi i pracuje nad odpowiedzią czy będą coś mieli i kiedy
    • nie da się zamówić serwera przez telefon, widocznie to nie działa jak pizzeria
  • notka o dłuższej kolejce na samym początku formularza zamówień: Dziennik zmian lvlup.pro 2020
    • mniej nowych zamówień to mniejsza kolejka
  • dodanie listy zamówień widocznej dla klienta w panelu v4: Dziennik zmian lvlup.pro 2020
  • dokupienie węzłów PL: Dziennik zmian lvlup.pro 2020
  • procedura anulowania zamówień FR w przypadku chęci zakupu oferty PL
    • jeśli klient napisze do nas ticket, możemy mu zwrócić środki do portfela lvlup.pro, wtedy środki można wykorzystać na zakup pakietu PL który realizuje się szybko i obecnie kolejka to może ~15 min

02.04.2020

17:18

Oferta FR

Obecnie brakuje nam 172 GB RAM na realizację zamówień FR.
Najstarsze zamówienie czeka 5 dni.
Najbliższa szansa na realizację kilku zamówień przypada na niedzielę (05.04.2020).

Oferta PL

Obecnie zamówienia na PL są realizowane na bieżąco w ciągu ~15 min.
Mamy też dodatkowy jeden węzeł w zapasie jednak obsługa OVH nadal rozwiązuje problemy z temperaturą jego CPU. Powinien być już sprawny gdy będzie potrzebny.

Co zrobiliśmy

  • napisaliśmy bezpośrednio do jednej z osób supportu SYS na maila w nadziei że może w ten sposób uzyskamy odpowiedź odnośnie dostępności / zamówienia GAME-3
  • napisaliśmy też do naszego opiekuna w OVH aby ustalić czy będziemy mieli odpowiednią rezerwę serwerów pod obecną ofertę PL

03.04.2020

10:22

Jedna z odpowiedzi jaką uzyskaliśmy z SYS sugeruje że jest szansa na 4 nowe GAME-3 w przyszłym tygodniu. Pozwoliłoby to zrealizować całą obecną kolejkę zamówień.
Czekamy na SYS w tej sprawie.

17:32

Obecnie brakuje nam 212 GB RAM na realizację 32 zamówień FR.
Najstarsze zamówienie czeka 6 dni.
Najbliższa szansa na realizację 6 najstarszych zamówień przypada na niedzielę wieczór (05.04.2020).

8lajków

:white_check_mark: Wewnętrzne usługi poza panelami

17:54

Panel klienta v2 i v4 czy Proxmox działają poprawnie.
Pozostałe usługi jak zabbix czy grafana nie odpowiadają.
Obecnie jest odpalone jedno długo trwające zapytanie na bazie MySQL z której korzystają te aplikacje i baza odpowiada zbyt wolno.

18:25

Zapytanie się wykonało.
Pozostałe usługi się już “odetkały”.
Wszystko działa jak trzeba.

Musimy jednak wykonać jeszcze jedno czy dwa tak długie zapytania.
Zostawimy to na mniej popularne pory.

4lajki