Awarie 09.11.2017


#1

Obecnie wszystkie usługi powinny działać już poprawnie.
Jeśli nadal coś nie działa, proszę o kontakt w systemie zgłoszeń aby przyjrzeć się sprawie już jednostkowo
https://lvlup.pro/panel/support/ticket

Poniżej archiwalny opis zdarzeń

Część usług lvlup.pro jest niedostępna.
Ma to związek z dwiema dużymi awariami w OVH które nastąpiły jednocześnie coś pomiędzy 07:12 a 08:08 09.11.2017

Niebawem postaram się zamieścić całą linię czasu jak przebiegały poszczególne czynności.
Przedstawienie wszystkich wydarzeń może to trochę potrwać ze względu rozmiar usterki w sieci OVH.
Większość usług nie była jednak nawet zrestartowana więc po przywróceniu sieci wszystko było całkowicie w normie.

09.11.2017

10:04

Szacowanie co uległo awarii

10:14

Wygląda na to że inni klienci OVH mają ten sam problem co lvlup.pro
Usterki nie są więc bezpośrednio z winy lvlup.pro.
Strona z usterkami OVH nie jest dostępna, przez to trudniej ustalić co się stało
travaux.ovh.net

10:31

Ze względu na fakt że forum nie było dostępne a awaria miała spory zasięg, został utworzony post na FB informujący o przyczynie usterek tak aby klienci którzy już spotkali się z problemem mieli przynajmniej podstawowe informacje co się dzieje.

10:33

Strona oraz panel OVH nie działa, niemożliwa jest więc obecnie żadna interwencja aby hosting www z panelem DirectAdmin na w2.lvlup.pro zaczął działać nie jest możliwa.

10:34

Prezes OVH mówi o awarii dwóch osobnych linii zasilania w DC SBG

10:36

Strona status.lvlup.pro nie jest dostępna ze względu na awarię więc powstaje pomysł o szybkim postawieniu strony ze statusem na innym serwerze w innym datacenter aby każdy mógł zobaczyć status swoich usług, niestety strona sprintdatacenter.pl nie odpowiada mimo kilku prób więc pomysł ten zostaje porzucony.

10:47

CEO OVH informuje że DC RBX już jest dostępne.
W RBX są zlokalizowane wszystkie serwery VPS OpenVZ oraz MC z lvlup.pro
https://twitter.com/olesovhcom/status/928556358353539072

~ 11:00

W wyniku małego błędu v2 obsługa nie może zapoznać się ani odpowiedzieć na zgłoszenia klientów którzy posiadają hosting WWW który aktualnie jest offline.
Powstaje łatka która to umożliwi.

11:09

Łatka w panelu v2 została zastosowana, teraz mimo niedostępności tickety dotyczące awarii mogą zostać odpisane dzięki czemu klienci będą mieli lepszą wiedzę dlaczego ich usługi nie działają.

11:24

Zostały udzielone odpowiedzi na praktycznie wszystkie zgłoszenia związane z tą awarią.

11:30

Szybkie sprawdzenie, zewnętrzny serwer z logami usług działa poprawnie więc po wszystkich zdarzeniach będzie możliwa dokładniejsza analiza dzienników.
Jeśli po przywróceniu usług będzie coś z nimi nie tak - może to pomóc w szybszej naprawie.

11:18

n68 w SBG-1 zostało włączone

11:51

Grafana na stats.lvlup.pro działa prawidłowo, widać wyraźny skok w utworzonych zgłoszeniach

11:52

VPSy na n68 które były wyłączone zostały ręcznie włączone przez obsługę lvlup.pro

11:53

VPSy na n42 które były wyłączone zostały ręcznie włączone przez obsługę lvlup.pro

13:52

Został utworzony post na FB informujący o naprawieniu większości awarii

13:57

Możliwość zakupu nowych kont WWW w formularzu zamówień została tymczasowo zawieszona.

16:13

w2.lvlup.pro zostało włączone

16:36

Po szybkim sprawdzeniu wygląda na to że Hosting WWW działa już prawidłowo

16:48

Sprzedaż nowych kont WWW w formularzu zamówień została wznowiona

22:50

Do każdego aktywnego hostingu WWW zostało dodane dodatkowe +24h ważności w zamian za niedogodności

22:54

Do każdego aktywnego serwera MC zostało dodane dodatkowe +24h ważności w zamian za niedogodności

22:56

Do każdego aktywnego serwera VPS zostało dodane dodatkowe +24h ważności w zamian za niedogodności

23:00

Do klientów zostały rozesłane maile z zaktualizowanym czasem wygasania ich usług.

23:49

Zostały udzielone odpowiedzi na wszystkie zgłoszenia klientów związane bezpośrednio z awarią


Niedostępność http/https na w2.lvlup.pro 26.10.2017
#2

Dzisiaj (9.11.2017) mam właśnie problem z wejściem do panelu DA. Ani ta, ani inna funkcja nie działa, a hosting jest opłacony do końca miesiąca. Kiedy znowu zacznie to działać?


#3

Z tego co wskazują mi klienci, nie działa od minimum godziny. Nie odpowiada żadna funkcja - baza, email, DA.


#4

Był problem z OVH, to taki hosting hostingów. Po dziennikarsku połowa polskiego Internetu nie działała. https://www.spidersweb.pl/2017/11/ovh-nie-dziala-awaria.html
Ale już powoli wszystko zaczyna działać. Mój serwer MC był niedostępny, konsola też. Teraz widzę na konsoli, że serwer ciągle działał (choć był niedostępny).


#5

OVH miało awarię zasilania.
Musicie poczekać, aż Pan Michał uruchomi wszystko - VPSy wstały, bo tam nie ma co uruchamiać, wszystko autostart (Proxmox, KVM); OVZ myślę, że też.

Co do WWW no trzeba czekać :stuck_out_tongue:


#6

Mnie ciekawi czy na n67 coś padło, bo uptime się nie zresetował czyli serwer nie był wyłączony, co najwyżej coś z siecią, @SystemZ jak to wyglądało? :smiley:


#7

Tak to zdecydowanie dobre proste wytłumaczenie :slight_smile:

Jak pisałem w pierwszym poście, większość usług straciło dostęp do sieci więc np. VPSy cały czas były włączone.
Póki co wygląda na to że tylko VPSy KVM w SBG1 trafiły trochę gorzej i były wyłączone na jakiś czas przez downtime węzłów. Mowa tu o :

  • n37
  • n41
  • n42
  • n68

Panel klienta v2 i v3 z tego co pamiętam były akurat hostowane w GRA1 więc ominęła je awaria.


#8

Mam maszynę na n68 i z tego co widzę faktycznie, przez moment straciły połączenie z netem, lecz jak wróciło to i moje usługi powróciły - żadnego restartu nie było, inaczej moje usługi wogóle by same nie powstały :slight_smile:


#9

Jest wiadome kiedy zostanie uruchomiona usługa www?


#10

Wierząc OVH obstawiałbym dziś 17:00


#11

Moje strony wstały. Mam nadzieje ze to koniec problemu :slight_smile:


#12

Potwierdzam, u mnie również wstała strona :slight_smile:
Mail działa, wysłałem z w2 na onet - przyszła natychmiastowo :slight_smile:


#13

Cały proces obserwowałem na bieżąco w ciągu dnia, teraz mam chwilę by napisać o aktualnym stanie:
status.lvlup.pro
nie działa.
Moja strona na w2 funkcjonuje poprawnie.
Serwery moich klientów działają poprawnie.
Wgląda na to, że już po problemie.

Ale powiem tak, działo się tam u nich :joy:


#14

Komu nie działa, temu nie działa.


#15

O, właśnie wstał :smiley:
Jak pisałem post to jeszcze go nie bylo :wink:


#16

Apropo tego całego zamieszania i podsumowania awarii - https://status.kacperduras.pl/
Dokładnie godziny kiedy dana usługa leżała. Najdłuższy uptime ma tylko strona główna, bo oparta o kompletnie inną usługę (GitHub Pages). Natomiast najdłużej leżał https://blog.kacperduras.pl, bo prawie 9h:


#17

Czytałem, że tak wielka awaria w ovh może oznaczać koniec tej firmy. Nie zgadzam się z tym, ponieważ gdyby miała zakończyć swoją działalność rynek hostingowy by podwyższył ceny i wszyscy stracą bo na przykład gdy lvlup kupi droższe maszyny, ceny zostaną zwiększone to mniejsze serwisy i dzieci nie będzie na nie stać.


#18

Zacznijmy od tego, że na dzień dzisiejszy jedyną alternatywą dla OVH może być wg. mnie DigitalOcean. Może posiadają ciut mniejszą infrastrukturę niż OVH, natomiast nie preferują rozwiązań pokroju Blackholding, co przy większych i poważniejszych projektach jest niedopuszczalne. Pomimo tego, takie serwerownie jak nasz Sprint stosuję nadal tą zagrywkę, tłumacząc się ochroną infrastruktury (czego nie kwestionuje, bo to też ważne). Słyszałem że u nich się to ostatnio poprawiło, musiałbym kupić jakiegoś dedyka i zobaczyć. Z mniejszych to mogę polecić Beyond czy niektóre marki H88 S.A. (jak sobie przypomnę nazwy to podam). One działają na ciut mniejszą skale, jednak też dają radę. Natomiast żartem, mogą być m.in. Oktawave, czy HosTeam. Nie wiem jakim cudem one funkcjonują na rynku, ale cokolwiek na nich stawiałem coś ambitniejszego, aniżeli aplikacje pokroju Teamspeak, to szło całość (przepraszam za wyrażenie) o kant ch*ja rozbić.

Reasumując - OVH nie upadnie. Przyznają pewnie jakieś odszkodowania z tytułu utraty SLA i innych tego typu, pewnie poprawią zabezpieczenia, przepustowność między DC i zapasowe agregaty prądotwórcze, które nawaliły z tego co czytałem na Tweeterze CEO OVH - Octave Klaba. To jest zbyt duży gracz by mógł sobie pozwolić na zejście ze sceny. Takie rzeczy dzieją się powoli.

A, i tak nawiasem mówiąc - jak czytałeś Spider’s Web’a, to przestań czytać. Mniej raka po tym się ma.


#19

@SystemZ taka prośba, a propos dzisiejszej jak i poprzednich awarii - nie dałoby się zrobić czegoś do API co pokazywałoby status usług LVLUP? Mówię tu o endpoincie np. /status który w fajny json’owski sposób sprawdzał by po kolei baze danych email itp. i zwracał. Wtedy, jak my jako programiści i użytkownicy widzimy że odpowiedzi brak, to znaczy że lecimy z DNS failover i jesteśmy w jakiś sposób reagować. Często po prostu jest tak, że jest awaria, a jeśli ktoś nas nie powiadomi to nic z tym zrobić nie możemy.

W teorii można sprawdzać czy strona zwraca content, ale to bez sensu. Dlaczego? Bo jak forum “padło” to i tak pokazywał się błąd, czyli content. Dlatego pytam czy istnieje taka możliwość :slight_smile:

Oczywiście jeśli API stoi na osobnym datacentre. Jeśli na tym samym co w2 to bez sensu.


#20

Warto napisać na GitHub’ie :wink: