Niedostępność w2.lvlup.pro 02-04.10.2018


#21

@Krzysztofeq trzeba być dobrej myśli i mieć nadzieje, że w końcu ovh weźmie i ruszy swoje szacowne 4 litery


#22

Nie, w2 jest zlokalizowane w SBG1 a ID instancji cloud to

3600ce26-fbb9-4317-bffe-c66476633bc9


#23

Specjalnie założyłem konto by wejść tu napisać, trochę słabo że jest taka duża przerwa techniczna na której jestem stratny. Ale to pokazuje że firma ovh jest nie profesjonalną firmą, dlaczego nie możecie przenieść serwerów na coś innego, szybszego w kontakcie którzy by was szanowali ? To jest jawne plucie w mordę a wy to jeszcze liżecie sorry ale taka jest moja opinia :slight_smile:


#24

@Muchomor to nie jest tak do końca. Fakt, inne firmy mogą sobie pozwolić na trochę większy support w stronę klienta, ale mimo wszystko poziom usług które świadczą daleko odstaje od OVH. Sam kiedyś nie byłem przekonany co do OVH. Takie długie przerwy zdarzają się bardzo rzadko to raz dwa problem może być na tyle duży że inne firmy o których piszesz rozwiązywały by go jeszcze dłużej. Nie ma co gdybać. Ja też jestem stratny ze względu na samą pocztę, ale spokojnie naprawią i wszystko wróci do normy.


#25

Dla mnie najlepszym rozwiązaniem będzie jak najszybsze przywrócenie usługi, moi klienci już nasrali mi do urwanej głowy.


#26

Awarie to rzecz normalna, dlatego ludzie często inwestują w rozproszoną infrastrukturę czy podobne rozwiązania, które eliminują ten problem.


#27

Hosting WWW powinien już działać poprawnie.

Do końca tej doby postaram się odnieść do wszystkich powyższych postów oraz ustalić rekompensatę dla klientów gdy już trochę ochłonę.


#28

OVH w pewnych zastosowaniach nie ma sobie równych, głównie w stosunku jakości i wydajności zasobów do ceny do czego też dążymy w ofercie co powoduje że to póki co nasz najlepszy wybór jaki mamy.

Korzystając z porównywalnych rozwiązań u innych firm, ceny usług mogłyby w niektórych przypadkach wzrosnąć nawet o 50% czyniąc naszą ofertę nieatrakcyjną dla klientów.

Jestem w trakcie rozpisywania jaki plan założyliśmy aby zmniejszyć szansę na podobne awarie w przyszłości.


#29

Awaria :skull_and_crossbones:, błędy :ant:, wnioski :woman_mechanic:

Długo myślałem nad całą sytuacją i chciałbym się z wami podzielić moimi spostrzeżeniami oraz planami które pomogą uniknąć podobnych sytuacji na przyszłość.

Większość planów które przedstawię możemy wprowadzić w życie dopiero w przyszłym roku, w tym mamy obecnie pełne ręce roboty w związku z wygaszaniem starych ofert i ogólną modernizacją sprzętu i oprogramowania. Trochę pomaga nam jednak fakt mniejszej ilości zgłoszeń ze względu na kurczenie się ilości VPS OVZ oraz serwerów MC jednak nadal mamy sporo otwartych spraw a chciałbym zwrócić szczególną uwagę na ulepszenie oferty z hostingiem DA.

Jak to wszystko działa? :dragon:

e-sardynki w puszce :fish:

W przypadku współdzielonego hostingu WWW od strony usługodawcy im więcej klientów “upchnie się” na jednym węźle tym lepiej. Praktycznie te same koszty licencji rozkładają się na więcej klientów, tak więc jest taniej oraz pakiety przygotowane dla klientów też mogą kosztować mniej i/lub zarobek usługodawcy jest większy.

Niestety, nie ma róży bez kolców. Duża ilość kont WWW na każdym serwerze z DirectAdminem ma swoje skutki uboczne. Na jednym linuksowym serwerze jest masa usług, bardzo wiele rzeczy może pójść nie tak a awaria jednego komponentu potrafi być zwykle przyczyną sporych niedogodności dla wszystkich klientów przypisanych do serwera.

Częściowym rozwiązaniem jest zwiększanie ilości węzłów DirectAdmin czyli powiedzmy jednoczesne istnienie w2, w3, w4 itp. Dzięki temu przykładowo w wyniku błędnej aktualizacji tylko 33% klientów odczuwa awarię dla trzech węzłów, 50% klientów jest dotkniętych awarią w przypadku dwóch hostów a nie 100% jak w przypadku jednego hosta.

Na obecną chwilę istnienie np. trzech hostów z DA jest wykluczone. Celujemy póki co w dwa hosty.
Problem w tym że mamy jeszcze zbyt mały przychód z istniejących kont aby stało się to opłacalne.
Nie jesteśmy jedną z tych firm co wydaje miliony na reklamy i używa w nich kontrowersyjnych postaci tak więc nasz wzrost ilości usług nie jest aż tak dynamiczny jakbyśmy chcieli.

Luz-blues w przypadku VPSów :+1:

Przy serwerach VPS jest zupełnie inaczej.
Koszty są niższe, licencji jest potrzebnych mniej.
Zaprojektowałem też wszystko tak aby zmniejszyć ilość słabych punktów infrastruktury od naszej strony do minimum.
Awaria jednego węzła nie dotyczy też zbyt wielu klientów, powiedzmy 5-20-30 a nie np. kilkuset. Usługi da się łatwo podzielić, większość elementów jest łatwa do zastąpienia i przeniesienia, nowy węzeł od czasu dostarczenia przez dostawcę do wydania go klientom i tworzenia VPS to u nas około 60 min, gdyż większość procesów udało nam się zautomatyzować.

Sądzę że w kwestii VPSów to już całkiem sporo a nie zwalniamy i idziemy naprzód - automatyzujemy procesy dla naszych klientów, autokonfiguracja sieci przez DHCP i systemu wybranymi przez klienta skryptami to tematy które niedługo poruszę.

Reakcje na awarie :angry:

OVH w miarę sprawnie naprawia sprzęt (serwery dedykowane) jeśli wykryją jego awarię.
Czasami mija jedna godzina i serwer ponownie jest online gdzie chyba tylko adres IP i dyski pozostały bez zmian a reszta elementów została wymieniona na sprawne.

Co do Public Cloud w OVH czyli usługi sprzedawanej trochę jako nowocześniejsze VPSy mam inne odczucia niż względem dzierżawy serwera dedykowanego. Usługa jest dużo bardziej skomplikowana i oprócz ewentualnych problemów sprzętowych dochodzi jeszcze masa możliwych kłopotów programowych.

Może to prowadzić do sytuacji takiej jaką widzieliśmy przy awarii w2, sprzęt na którym fizycznie było w2 wyglądał na sprawny lub został zmieniony na sprawny lecz problem z OpenStack spowodował że instancja w2 nie mogła wstać lub jak nawet wstawała to bez sieci co czyniło w2 bezużytecznym.

Skomplikowanie OpenStack czy innego oprogramowania użytego w takim środowisku Cloud powoduje że technicy mający całodobową zmianę i czuwający nad sprzętem nie mogą zareagować a wszystkie takie skomplikowane zadania są delegowane do osób które wydają się nie pracować w nocy ani w weekendy.

Powoduje to jak sami widzicie znacznie dłuższy czas przywrócenia naszych usług do działania. Gdyby to był tylko sprzęt to pewnie potrwałoby godzinę lub mniej.

Instancje Cloud są całkiem fajne jednak nie do takiego dość przestarzałego rozwiązania jakim jest DirectAdmin. Myślimy od jakiegoś czasu o alternatywach dla niego ale jeszcze nie chciałbym poruszać tego tematu.

Co musimy ulepszyć :thinking:

Kopie zapasowe :busts_in_silhouette:

Obecnie kwestia snapshotów czyli pełnych kopii całego dysku twardego wirtualnej maszyny jest problematyczna bo może zatrzymać działanie w2 nawet na więcej niż godzinę co wyglądałoby na awarię, o ironio jest to przecież proces który ma zapobiec awariom :man_facepalming:

Przejście na własną VM da nam możliwość tworzenia pełnych kopii zapasowych praktycznie bez zatrzymywania usług na w2 (zaledwie kilka sekund pauzy).

Obecność świeżej pełnej kopii daje szansę na szybką pełną ewakuację o ile będzie potrzebne pełne odtworzenie w2 na innym sprzęcie, tak właśnie zrobilibyśmy w przypadku tej awarii którą opisuję w tym wątku gdybyśmy dysponowali świeższą pełną kopią a nie mogliśmy jej wykonać z obawy o niedostępność usługi.

Opłacalność kont WWW :moneybag:

Usługa może rozwijać się tylko jeśli będzie na siebie zarabiać.
Pracujemy nad tym aby mieć fundusze na zdublowanie serwera z DirectAdmin.

Wycofanie mniej opłacalnych pakietów WWW :ghost:

To zrobiliśmy już trochę wcześniej, ostatnio jednak trochę przyspieszyliśmy ten proces:

Program partnerski :money_mouth_face:

Wprowadziliśmy program referral we wczesnej wersji i ulepszamy dodając automatyzację tak aby każdy klient miał swój własny kod promocyjny jeśli będzie chciał z niego skorzystać. Widzimy już pierwsze pozytywne wpływy tego programu na ilość aktywnych usług u nas.

Program lojalnościowy :sunglasses:

Ciągle nad tym pracujemy, część kodu w panelu v3 jest już gotowa. Początkowo zadanie wydawało się łatwe jednak okazuje się że jest sporo nietypowych sytuacji gdzie promocja może nie być brana pod uwagę mimo że nasz klient powinien się łapać na warunki promocyjne.

Podsumowując / TL;DR :see_no_evil:

Wszystko sprowadza się do tego aby wrócić do korzeni czyli użyć VM na serwerze dedykowanym zarządzanym przez lvlup a nie OVH.

Oferta Cloud reklamowana jako coś bezawaryjnego ze sporym SLA jest odczuwalnie bardziej awaryjna od sprzętu. OVH ma większe doświadczenie z zarządzaniem sprzętem więc takie zadanie im zostawimy.

Spróbujemy też przy okazji rozwiązać to od strony oferty aby utrzymywanie dwóch serwerów z DA było opłacalne.