Skocz do zawartości
stfnl

Zamulający serwer - EQ4

Polecane posty

Witam,

 

Może ktoś doradzi. Od wczoraj mój serwer (Hetzner EQ-4) zaczął zamulać. Teoretycznie, to był oczekiwany zwrot akcji, bo na stronie rozpoczął się event powodujący spory ruch - przy aktualnej konfiguracji, przy 300 "grających" użytkownikach konfiguracja mySQL trochę nie wyrabiała.

 

Ale minęła noc, liczba userów spadła do 70 online, i serwer dalej muli, nawet po restarcie. Długie czasy "Oczekiwanie na...", długie ładowania, strony zawierające dużą liczbę obrazów wczytują je bardzo powoli (co sugeruje, że niekoniecznie chodzi o konfigurację mySQL), bardzo długie nawiązywanie połączeń SSH/SFTP... Pingi są w normie, z drugiej strony.

 

Restart serwera nie pomagał, dodawanie tweaków do konfiguracji SQL również niezbyt.

 

Z ciekawostek, htop wczoraj pokazywał tylko dwa rdzenie z ośmiu. Po reboocie pokazywał znowu osiem, ale teraz znowu pokazuje tylko jeden. Po restarcie wciąż nie pokazuje ośmiu rdzeni - czy to implikuje usterkę techniczną?

 

Kawałek kern.log z wczoraj:

Dec  6 21:31:57 static kernel: [3010930.148767] CPU0: Core temperature above threshold, cpu clock throttled (total events = 4146101)
Dec  6 21:31:57 static kernel: [3010930.148770] CPU4: Core temperature above threshold, cpu clock throttled (total events = 4146110)
Dec  6 21:31:57 static kernel: [3010930.149768] CPU4: Core temperature/speed normal
Dec  6 21:31:57 static kernel: [3010930.149770] CPU0: Core temperature/speed normal
Dec  6 21:37:12 static kernel: [3011245.039947] CPU4: Core temperature above threshold, cpu clock throttled (total events = 4152377)
Dec  6 21:37:12 static kernel: [3011245.039950] CPU0: Core temperature above threshold, cpu clock throttled (total events = 4152368)
[...]
Dec  6 21:37:12 static kernel: [3011245.040946] CPU0: Core temperature/speed normal
Dec  6 21:37:12 static kernel: [3011245.040949] CPU4: Core temperature/speed normal
Dec  6 22:06:10 static kernel: [3012982.395053] CPU 1 is now offline
Dec  6 22:06:10 static kernel: [3012982.396018] CPU 5 MCA banks CMCI:2 CMCI:3 CMCI:5
Dec  6 22:06:10 static kernel: [3012982.588079] CPU 2 is now offline
Dec  6 22:06:10 static kernel: [3012982.589061] CPU 6 MCA banks CMCI:2 CMCI:3 CMCI:5
Dec  6 22:06:10 static kernel: [3012982.747987] CPU 3 is now offline
Dec  6 22:06:10 static kernel: [3012982.749165] CPU 7 MCA banks CMCI:2 CMCI:3 CMCI:5
Dec  6 22:06:10 static kernel: [3012982.886396] Broke affinity for irq 45
Dec  6 22:06:10 static kernel: [3012982.887429] CPU 4 is now offline
Dec  6 22:06:10 static kernel: [3012982.976185] Broke affinity for irq 46
Dec  6 22:06:10 static kernel: [3012983.085974] CPU 5 is now offline
Dec  6 22:06:10 static kernel: [3012983.156121] Broke affinity for irq 1
Dec  6 22:06:10 static kernel: [3012983.265957] CPU 6 is now offline
Dec  6 22:06:10 static kernel: [3012983.337461] CPU 7 is now offline

 

Jakieś sugestie, jak to można zdiagnozować, sprawdzić ocb? Jeśli jest podejrzenie usterki sprzętowej, mogę kazać hetznerowi wykonać diagnostykę, ale to zdejmie mi stronę na 10-14h.

Edytowano przez stfnl (zobacz historię edycji)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Pierwsze linie z loga sugeruja problem z chlodzeniem co tlumaczyc moze spadek wydajnosci ze wzgledu na obnizanie taktowania, a potem jak widac wylaczanie poszczegolnych rdzeni.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Gość patrys

Załącz im po prostu ten wycinek logu który tu wkleiłeś powinni już wiedzieć co zrobić :)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Wycinek przesłany, i tak support chce robić pełną diagnostykę. No to siu, 14h z głowy. Dzięki za pomoc!

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Gość patrys

Kwestia supportu w Hetzner trochę się pogorszyła w ostatnim czasie, robią też coraz większe problemy z wymianą dysków.

Konkurująca francuska serwerownia za to poprawiła support techniczny :)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Jeszcze jedno pytanie - czy takie problemy mogą być powodowane przez soft, czy raczej zdecydowanie przez hardware? Heztner odpisał, że diagnostyka została ukończona, i że wszystko gra... Oczywiście od razu po restarcie (który oni odpalili), 7 rdzeni ponownie padło (a strona jest zdjęta, więc nawet zbytnio nie miało co obciążyć CPU).

 

\\I kolejna odpowiedź Hetznera, po ponownym wklejeniu loga:

 

Dear Client,

It seems the CPU fan/cooling may be faulty, therefore the CPU downclocks and
disables some cores.

We would like to check this physically. Are we allowed to shutdown your server for
an inspection?

 

OK, no to czekam dalej.

Edytowano przez stfnl (zobacz historię edycji)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Ponoć wymienili pastę termalną, i założyli na nowo wiatraczek. Teraz rdzenie już nie padają, ale w przeciągu ostatnich 10 minut już były trzy throttlingi... Bleh...

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Przynajmniej się STARAJĄ, a to jest bardzo ważne w tym przypadku ;).

 

Pozawracaj im jeszcze trochę głowę to się wezmą do roboty.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

O drugiej rano wymienili wiatraczek (bo wcześniej użyli starego, tylko go docisnęli na nowej paście), i od tamtej pory kern.log jest w normie. Jeszcze sprawdzę to wieczorem, bo na razie obciążęnie jest niskie.

 

Czyli chyba już wszystko gra :)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Bądź aktywny! Zaloguj się lub utwórz konto

Tylko zarejestrowani użytkownicy mogą komentować zawartość tej strony

Utwórz konto

Zarejestruj nowe konto, to proste!

Zarejestruj nowe konto

Zaloguj się

Posiadasz własne konto? Użyj go!

Zaloguj się


×