ritchey 91 Zgłoś post Napisano Marzec 13, 2014 Witam, Mam serwer HP Proliant DL360p Gen8 z macierzą Raid HP SmartArray p420i. W macierzy są 4 dyski SSD w konfiguracji RAID 10. Chciałbym sprawdzić "stan zdrowia" SSD-ków poleceniem smartctl, ale niestety nie bardzo chce to działać. Próbowałem różne opcje, ale za każdym razem polecenie nie może się skomunikować z dyskiem. Sprawdzałem też hpacucli - ale ono nie zwraca informacji o stanie zdrowia dysków. Jeżeli ktoś wie jak to zrobić - to byłbym wdzięczny. Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Marzec 13, 2014 Na HPkach działało kiedyś coś w rodzaju smartctl -a -d cciss,0 /dev/cciss/c1dXXX 1 Udostępnij ten post Link to postu Udostępnij na innych stronach
Gość patrys Zgłoś post Napisano Marzec 13, 2014 Spróbuj: smartctl -a -d cciss,0 /dev/sg0 Udostępnij ten post Link to postu Udostępnij na innych stronach
Miłosz 2311 Zgłoś post Napisano Marzec 13, 2014 Właśnie chciałem dodać żeby sprawdził z sg_utils, cciss to chyba z hpków serii g5 o ile dobrze pamietam. Dopieszczając: smartctl -a -d cciss,X /dev/sg0 gdzie X to kolejne dyski liczone od 0 Na G7 działa. Udostępnij ten post Link to postu Udostępnij na innych stronach
ritchey 91 Zgłoś post Napisano Marzec 13, 2014 (edytowany) Miłosz, Patryk - dzięki za Waszą pomoc. Niestety polecenie: smartctl -a -d cciss,0 /dev/sg0 Nie pokazuje informacji o które mi chodzi, oto wynik: Serial number: CVCV... Device type: disk Local Time is: Thu Mar 13 21:16:39 2014 CET Device supports SMART and is Enabled Temperature Warning Disabled or Not Supported SMART Health Status: OK Current Drive Temperature: <not available> Read defect list: asked for grown list but didn't get it Error Counter logging not supported Device does not support Self Test logging Dyski o których mowa to Intele serii SSD 520. Próbowałem też z różnymi wartościami cciss,X oraz z różnymi /dev/sgX - rezultat taki sam. Generalnie to widzę że w katalogu /dev mam m.in. trzy węzły: sg0, sg1, sg2 - natomiast cciss żadnego. Jakieś propozycje jeszcze macie ? @Update: Z tego co widzę to polecenie: smartctl -a -d cciss,0 /dev/sg0 Niby działa, gdyż jak podaje cciss od 0 do 3 to wypisuje wynik j/w, natomiast jak dam jakiś większy indeks to otrzymuję błąd: >> Terminate command early due to bad response to IEC mode page A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options. Tak więc komunikacja z dyskiem teoretycznie zachodzi, ale nie zwraca danych na których mi zależy. Edytowano Marzec 13, 2014 przez ritchey (zobacz historię edycji) Udostępnij ten post Link to postu Udostępnij na innych stronach
theONE 526 Zgłoś post Napisano Marzec 13, 2014 W HP dysk kupiles? Udostępnij ten post Link to postu Udostępnij na innych stronach
ritchey 91 Zgłoś post Napisano Marzec 13, 2014 (edytowany) W HP dysk kupiles? Nie wiem gdzie był kupiony - gdyż osobiście go nie kupywałem. Serwer dzieżawię w serwerowni. A czy ma to jakieś znaczenie gdzie był on kupowany ? Model dysku to Intel SSD 520. Edytowano Marzec 13, 2014 przez ritchey (zobacz historię edycji) Udostępnij ten post Link to postu Udostępnij na innych stronach
malu 460 Zgłoś post Napisano Marzec 13, 2014 Powiem tak, mi na G8 na P420i bez problemu czyta informacje o intelach 520.Więc to dość ciekawa przypadłość. Udostępnij ten post Link to postu Udostępnij na innych stronach
ritchey 91 Zgłoś post Napisano Marzec 13, 2014 Powiem tak, mi na G8 na P420i bez problemu czyta informacje o intelach 520. Więc to dość ciekawa przypadłość. To ja tylko powiem że serwer jest hostowany właśnie w Waszej firmie /ViPower/ Przed chwilą próbowałem używać polecenia hpacucli diag Jest jakiś postęp - gdyż zwraca mi obszerny raport - ale wciąż brak tam informacji o stanie zdrowia SSD. @Update Ok udało mi się teoretycznie uzyskać informację za pomocą polecenia: hpacucli ctrl all diag file=raid-info.zip ris=on Generuje obszerny raport (ok 1 MB). Są tam informacje dot. wszystkich dysków macierzy i wartości wielu parametrów, m.in: Percent Endurance Used 0x0000 Power On Hours 0x0000 Niestety wygląda na to że te informacje są nieprawidłowe, gdyż dyski są bardzo ciężko "orane" od ponad roku, a "endurance used" jest wciąż zero. Natomiast "Power on Hours" powinno mieć wartość conajmniej 24*365 (godziny w roku) - a jest wciąż zero. Jakieś pomysły ? @Mateusz, a możesz podać jakiego polecenia dokładnie używasz ? Udostępnij ten post Link to postu Udostępnij na innych stronach
ritchey 91 Zgłoś post Napisano Marzec 14, 2014 @Update Chyba już rozwiązałem problem. Pierwotnie korzystałem z dość starej wersji smartctl-a 5.40 z 2010r. (wersja domyślnie instalowana apt-get em). Natomiast teraz pobrałem najnowszą wersję 6.2 - która wydaje się działać już prawidłowo z tą macierzą HP. Tak więc komendy podane przez Miłosza i Patryka działają w porządku - dzięki. smartctl -a -d cciss,X /dev/sg0 Dyski mają wskaźnik Media_Wearout_Indicator na poziomie 99% (czyli dopiero 1% zużycia). To mnie trochę dziwi - ponieważ od ponad roku jest na nich zapisywane bardzo duża ilość danych. Przed chwilą sprawdzałem iostat-em statystyki z ostatniego m-ca - wychodzi że średnio na minutę jest zapisywane 360 MB, co daje 518 GB/dzień i ponad 15 TB/m-c. Czy to możliwe że przy tak dużej orce było takie małe zużycie dysku ? Chyba że iostat jakoś przekłamuje te wartości ? Udostępnij ten post Link to postu Udostępnij na innych stronach
elcct 159 Zgłoś post Napisano Marzec 14, 2014 @Update Dyski mają wskaźnik Media_Wearout_Indicator na poziomie 99% (czyli dopiero 1% zużycia). To mnie trochę dziwi - ponieważ od ponad roku jest na nich zapisywane bardzo duża ilość danych. Przed chwilą sprawdzałem iostat-em statystyki z ostatniego m-ca - wychodzi że średnio na minutę jest zapisywane 360 MB, co daje 518 GB/dzień i ponad 15 TB/m-c. Czy to możliwe że przy tak dużej orce było takie małe zużycie dysku ? Chyba że iostat jakoś przekłamuje te wartości ? Ja to tak rozumiem, że jeżeli jest napisane, że dysk powinien wytrzymać 100k zapisów, to chodzi o zapisanie go do pełna tyle razy. W Twoim przypadku jeżeli powiedzmy dysk ma pojemność 240GB to przez dzień by dawało ok. 2,5 takich zapisów, to by znaczyło, że dysk powinien wytrzymać 40000 dni - jakieś 109 lat. Czyli jeśli używałeś go w ten sposób przez rok, to zużycie 1% wydaje się być poprawne. Udostępnij ten post Link to postu Udostępnij na innych stronach
malu 460 Zgłoś post Napisano Marzec 14, 2014 Właśnie chciałem Ci zasugerować kompilację najnowszego smartmontools'a.Odnośnie wykorzystania dysku to jeżeli używasz ext4 to pokaż:tune2fs -l /dev/$orana-partycjaWartość: "Lifetime writes:" Udostępnij ten post Link to postu Udostępnij na innych stronach
theONE 526 Zgłoś post Napisano Marzec 14, 2014 A takie pytanie z innej beczki, kontroler masz aktualny? Udostępnij ten post Link to postu Udostępnij na innych stronach
ritchey 91 Zgłoś post Napisano Marzec 14, 2014 (edytowany) Właśnie chciałem Ci zasugerować kompilację najnowszego smartmontools'a. Odnośnie wykorzystania dysku to jeżeli używasz ext4 to pokaż: tune2fs -l /dev/$orana-partycja Wartość: "Lifetime writes:" Dzięki Mateusz, tune2fs podaje 176 TB. To by się zgadzało z iostat-em (12 m-cy razy ok 15TB/m-c). Z tego co widzę to Intel SSD 520 ma żywotność 5000 cykli zapisu dla komórki pamięci. To by oznaczało że max. żywotność dysku to 1 TB (taka jest łączna pojemność macierzy) * 5000 = czyli 5000TB. Ale to jest dla idealnego przypadku przy równomiernym rozkładzie. W praktyce wartość tą należy kilkukrotnie zmniejszyć - powiedzmy do ok 1000 TB. To by oznaczało że dysk powinien mieć ok 15-20% zużycia. A ma tylko 1%. Trochę pomyślałem z czego to może wynikać i już chyba wiem. Ta macierz ma 1 GB cache-u (Battery Backed Write Cache). Natomiast specyfika aplikacji na serwerze jest taka - że te 500 GB dziennego zapisu dotyczy mniej więcej przestrzeni dysku o rozmiarze mniejszym niż 1 GB (tylko że jest ona kilkusetkrotnie modyfikowana i zapisywana na nowo). To powoduje że ten cache w dużym stopniu eliminuje większość zapisów na dysku SSD. Po prostu wielokrotne zapisy dot. tego samego obszaru dysku scala w jeden zapis. I jak widać całkiem nieźle mu to wychodzi A takie pytanie z innej beczki, kontroler masz aktualny? Czy mógłbyś wyjaśnić co znaczy "aktualny kontroler" ? Edytowano Marzec 14, 2014 przez ritchey (zobacz historię edycji) Udostępnij ten post Link to postu Udostępnij na innych stronach
theONE 526 Zgłoś post Napisano Marzec 14, 2014 Aktualny firmware Pewność że kontroler umie współpracować z tym dyskiem i zarządzać ich zużyciem Udostępnij ten post Link to postu Udostępnij na innych stronach
malu 460 Zgłoś post Napisano Marzec 14, 2014 To znaczy w HP standardowo ddwc masz wyłączone, a więc wyjaśnienie z 1GB cache nie do końca się pokrywa. No chyba, że z poziomu hpacucli włączałeś ddwc. Udostępnij ten post Link to postu Udostępnij na innych stronach
ritchey 91 Zgłoś post Napisano Marzec 14, 2014 (edytowany) Hmm rzeczywiście Disk Write Cache jest Disabled: Cache Board Present: True Cache Status: OK Cache Ratio: 10% Read / 90% Write Drive Write Cache: Disabled Total Cache Size: 1024 MB Total Cache Memory Available: 816 MB No-Battery Write Cache: Disabled Cache Backup Power Source: Capacitors Battery/Capacitor Count: 1 Battery/Capacitor Status: OK Więc teraz już nic nie rozumiem. A dlaczego HP domyślnie wyłącza cache ? Czy może on powodować jakieś problemy ? Wersja firmaware macierzy to 3.22. Edytowano Marzec 14, 2014 przez ritchey (zobacz historię edycji) Udostępnij ten post Link to postu Udostępnij na innych stronach
theONE 526 Zgłoś post Napisano Marzec 14, 2014 Na tych intelach z tego co pamiętam nie ma podtrzymania zasilania do cache wiec można stracić dane w przypadku utraty zasilania. Udostępnij ten post Link to postu Udostępnij na innych stronach
ritchey 91 Zgłoś post Napisano Marzec 14, 2014 Na tych intelach z tego co pamiętam nie ma podtrzymania zasilania do cache wiec można stracić dane w przypadku utraty zasilania. Na Intelach nie, podobnie zresztą na innych dyskach SSD - ale mam na myśli macierz RAID HP SmartArray - ona ma podtrzymywanie bateryjne. Mam jeszcze takie wytłumazcenie, że O/S zapisuje na dysk całe bloki/sektory i to w nich liczy ilość zapisanych danych. Natomiast przeważnie jest tak że na zapisywanym bloku faktycznej zmianie ulega tylko jego niewielki fragment. Może firmware w SSD - porównuje zapisywane bloki z dotychczasowym stanem i modyfikuje jedynie te komórki, które rzeczywiście uległy zmianie. Tym samym ilość zapisywanych komórek znacznie się zmniejsza ? Udostępnij ten post Link to postu Udostępnij na innych stronach