stfnl 0 Zgłoś post Napisano Grudzień 7, 2012 (edytowany) Witam, Może ktoś doradzi. Od wczoraj mój serwer (Hetzner EQ-4) zaczął zamulać. Teoretycznie, to był oczekiwany zwrot akcji, bo na stronie rozpoczął się event powodujący spory ruch - przy aktualnej konfiguracji, przy 300 "grających" użytkownikach konfiguracja mySQL trochę nie wyrabiała. Ale minęła noc, liczba userów spadła do 70 online, i serwer dalej muli, nawet po restarcie. Długie czasy "Oczekiwanie na...", długie ładowania, strony zawierające dużą liczbę obrazów wczytują je bardzo powoli (co sugeruje, że niekoniecznie chodzi o konfigurację mySQL), bardzo długie nawiązywanie połączeń SSH/SFTP... Pingi są w normie, z drugiej strony. Restart serwera nie pomagał, dodawanie tweaków do konfiguracji SQL również niezbyt. Z ciekawostek, htop wczoraj pokazywał tylko dwa rdzenie z ośmiu. Po reboocie pokazywał znowu osiem, ale teraz znowu pokazuje tylko jeden. Po restarcie wciąż nie pokazuje ośmiu rdzeni - czy to implikuje usterkę techniczną? Kawałek kern.log z wczoraj: Dec 6 21:31:57 static kernel: [3010930.148767] CPU0: Core temperature above threshold, cpu clock throttled (total events = 4146101) Dec 6 21:31:57 static kernel: [3010930.148770] CPU4: Core temperature above threshold, cpu clock throttled (total events = 4146110) Dec 6 21:31:57 static kernel: [3010930.149768] CPU4: Core temperature/speed normal Dec 6 21:31:57 static kernel: [3010930.149770] CPU0: Core temperature/speed normal Dec 6 21:37:12 static kernel: [3011245.039947] CPU4: Core temperature above threshold, cpu clock throttled (total events = 4152377) Dec 6 21:37:12 static kernel: [3011245.039950] CPU0: Core temperature above threshold, cpu clock throttled (total events = 4152368) [...] Dec 6 21:37:12 static kernel: [3011245.040946] CPU0: Core temperature/speed normal Dec 6 21:37:12 static kernel: [3011245.040949] CPU4: Core temperature/speed normal Dec 6 22:06:10 static kernel: [3012982.395053] CPU 1 is now offline Dec 6 22:06:10 static kernel: [3012982.396018] CPU 5 MCA banks CMCI:2 CMCI:3 CMCI:5 Dec 6 22:06:10 static kernel: [3012982.588079] CPU 2 is now offline Dec 6 22:06:10 static kernel: [3012982.589061] CPU 6 MCA banks CMCI:2 CMCI:3 CMCI:5 Dec 6 22:06:10 static kernel: [3012982.747987] CPU 3 is now offline Dec 6 22:06:10 static kernel: [3012982.749165] CPU 7 MCA banks CMCI:2 CMCI:3 CMCI:5 Dec 6 22:06:10 static kernel: [3012982.886396] Broke affinity for irq 45 Dec 6 22:06:10 static kernel: [3012982.887429] CPU 4 is now offline Dec 6 22:06:10 static kernel: [3012982.976185] Broke affinity for irq 46 Dec 6 22:06:10 static kernel: [3012983.085974] CPU 5 is now offline Dec 6 22:06:10 static kernel: [3012983.156121] Broke affinity for irq 1 Dec 6 22:06:10 static kernel: [3012983.265957] CPU 6 is now offline Dec 6 22:06:10 static kernel: [3012983.337461] CPU 7 is now offline Jakieś sugestie, jak to można zdiagnozować, sprawdzić ocb? Jeśli jest podejrzenie usterki sprzętowej, mogę kazać hetznerowi wykonać diagnostykę, ale to zdejmie mi stronę na 10-14h. Edytowano Grudzień 7, 2012 przez stfnl (zobacz historię edycji) Udostępnij ten post Link to postu Udostępnij na innych stronach
mcbarlo 61 Zgłoś post Napisano Grudzień 7, 2012 Pierwsze linie z loga sugeruja problem z chlodzeniem co tlumaczyc moze spadek wydajnosci ze wzgledu na obnizanie taktowania, a potem jak widac wylaczanie poszczegolnych rdzeni. Udostępnij ten post Link to postu Udostępnij na innych stronach
Gość patrys Zgłoś post Napisano Grudzień 7, 2012 Załącz im po prostu ten wycinek logu który tu wkleiłeś powinni już wiedzieć co zrobić Udostępnij ten post Link to postu Udostępnij na innych stronach
stfnl 0 Zgłoś post Napisano Grudzień 7, 2012 Wycinek przesłany, i tak support chce robić pełną diagnostykę. No to siu, 14h z głowy. Dzięki za pomoc! Udostępnij ten post Link to postu Udostępnij na innych stronach
Gość patrys Zgłoś post Napisano Grudzień 7, 2012 Kwestia supportu w Hetzner trochę się pogorszyła w ostatnim czasie, robią też coraz większe problemy z wymianą dysków. Konkurująca francuska serwerownia za to poprawiła support techniczny Udostępnij ten post Link to postu Udostępnij na innych stronach
stfnl 0 Zgłoś post Napisano Grudzień 7, 2012 (edytowany) Jeszcze jedno pytanie - czy takie problemy mogą być powodowane przez soft, czy raczej zdecydowanie przez hardware? Heztner odpisał, że diagnostyka została ukończona, i że wszystko gra... Oczywiście od razu po restarcie (który oni odpalili), 7 rdzeni ponownie padło (a strona jest zdjęta, więc nawet zbytnio nie miało co obciążyć CPU). \\I kolejna odpowiedź Hetznera, po ponownym wklejeniu loga: Dear Client, It seems the CPU fan/cooling may be faulty, therefore the CPU downclocks and disables some cores. We would like to check this physically. Are we allowed to shutdown your server for an inspection? OK, no to czekam dalej. Edytowano Grudzień 7, 2012 przez stfnl (zobacz historię edycji) Udostępnij ten post Link to postu Udostępnij na innych stronach
Misiek08 285 Zgłoś post Napisano Grudzień 7, 2012 Powiedz, że tak, bo jak Ci procek "wyłącza" rdzenie albo przetaktowuje go na mniejsze freq. to na bank coś sprzętowo. Udostępnij ten post Link to postu Udostępnij na innych stronach
stfnl 0 Zgłoś post Napisano Grudzień 7, 2012 Ponoć wymienili pastę termalną, i założyli na nowo wiatraczek. Teraz rdzenie już nie padają, ale w przeciągu ostatnich 10 minut już były trzy throttlingi... Bleh... Udostępnij ten post Link to postu Udostępnij na innych stronach
Pan Kot 1535 Zgłoś post Napisano Grudzień 7, 2012 Przynajmniej się STARAJĄ, a to jest bardzo ważne w tym przypadku . Pozawracaj im jeszcze trochę głowę to się wezmą do roboty. Udostępnij ten post Link to postu Udostępnij na innych stronach
Misiek08 285 Zgłoś post Napisano Grudzień 8, 2012 Może masz procka podkręconego? Dziwnie się to zachowuje. Ewentualnie pisz, żeby dalej to ogarniali. Udostępnij ten post Link to postu Udostępnij na innych stronach
stfnl 0 Zgłoś post Napisano Grudzień 8, 2012 O drugiej rano wymienili wiatraczek (bo wcześniej użyli starego, tylko go docisnęli na nowej paście), i od tamtej pory kern.log jest w normie. Jeszcze sprawdzę to wieczorem, bo na razie obciążęnie jest niskie. Czyli chyba już wszystko gra Udostępnij ten post Link to postu Udostępnij na innych stronach