Sprawdzenie stanu SSD za sprzętowym RAID-em

ritchey · Marzec 13, 2014

Witam,

Mam serwer HP Proliant DL360p Gen8 z macierzą Raid HP SmartArray p420i.

W macierzy są 4 dyski SSD w konfiguracji RAID 10.

Chciałbym sprawdzić "stan zdrowia" SSD-ków poleceniem smartctl, ale niestety nie bardzo chce to działać.

Próbowałem różne opcje, ale za każdym razem polecenie nie może się skomunikować z dyskiem.

Sprawdzałem też hpacucli - ale ono nie zwraca informacji o stanie zdrowia dysków.

Jeżeli ktoś wie jak to zrobić - to byłbym wdzięczny.

Miłosz · Marzec 13, 2014

Na HPkach działało kiedyś coś w rodzaju

smartctl -a -d cciss,0 /dev/cciss/c1dXXX

Marzec 13, 2014

Spróbuj: smartctl -a -d cciss,0 /dev/sg0

Miłosz · Marzec 13, 2014

Właśnie chciałem dodać żeby sprawdził z sg_utils, cciss to chyba z hpków serii g5 o ile dobrze pamietam.

Dopieszczając:

smartctl -a -d cciss,X /dev/sg0

gdzie X to kolejne dyski liczone od 0

Na G7 działa.

ritchey · Marzec 13, 2014

Miłosz, Patryk - dzięki za Waszą pomoc.

Niestety polecenie:

smartctl -a -d cciss,0 /dev/sg0

Nie pokazuje informacji o które mi chodzi, oto wynik:

Serial number: CVCV...
Device type: disk
Local Time is: Thu Mar 13 21:16:39 2014 CET
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
SMART Health Status: OK

Current Drive Temperature:     <not available>
Read defect list: asked for grown list but didn't get it

Error Counter logging not supported
Device does not support Self Test logging

Dyski o których mowa to Intele serii SSD 520.

Próbowałem też z różnymi wartościami cciss,X oraz z różnymi /dev/sgX - rezultat taki sam.

Generalnie to widzę że w katalogu /dev mam m.in. trzy węzły: sg0, sg1, sg2 - natomiast cciss żadnego.

Jakieś propozycje jeszcze macie ?

@Update:

Z tego co widzę to polecenie:

smartctl -a -d cciss,0 /dev/sg0

Niby działa, gdyż jak podaje cciss od 0 do 3 to wypisuje wynik j/w, natomiast jak dam jakiś większy indeks to otrzymuję błąd:

>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Tak więc komunikacja z dyskiem teoretycznie zachodzi, ale nie zwraca danych na których mi zależy.

Edytowano Marzec 13, 2014 przez ritchey (zobacz historię edycji)

theONE · Marzec 13, 2014

W HP dysk kupiles?

ritchey · Marzec 13, 2014

Dnia 3/13/2014 o 20:34, theONE napisał:
W HP dysk kupiles?

Nie wiem gdzie był kupiony - gdyż osobiście go nie kupywałem.

Serwer dzieżawię w serwerowni.

A czy ma to jakieś znaczenie gdzie był on kupowany ?

Model dysku to Intel SSD 520.

Edytowano Marzec 13, 2014 przez ritchey (zobacz historię edycji)

malu · Marzec 13, 2014

Powiem tak, mi na G8 na P420i bez problemu czyta informacje o intelach 520.

Więc to dość ciekawa przypadłość.

ritchey · Marzec 13, 2014

Dnia 3/13/2014 o 20:49, malu napisał:

Powiem tak, mi na G8 na P420i bez problemu czyta informacje o intelach 520.

Więc to dość ciekawa przypadłość.

To ja tylko powiem że serwer jest hostowany właśnie w Waszej firmie /ViPower/

Przed chwilą próbowałem używać polecenia hpacucli diag

Jest jakiś postęp - gdyż zwraca mi obszerny raport - ale wciąż brak tam informacji o stanie zdrowia SSD.

@Update

Ok udało mi się teoretycznie uzyskać informację za pomocą polecenia:

hpacucli ctrl all diag file=raid-info.zip ris=on

Generuje obszerny raport (ok 1 MB). Są tam informacje dot. wszystkich dysków macierzy i wartości wielu parametrów, m.in:

Percent Endurance Used 0x0000

Power On Hours 0x0000

Niestety wygląda na to że te informacje są nieprawidłowe, gdyż dyski są bardzo ciężko "orane" od ponad roku, a "endurance used" jest wciąż zero. Natomiast "Power on Hours" powinno mieć wartość conajmniej 24*365 (godziny w roku) - a jest wciąż zero.

Jakieś pomysły ?

@Mateusz, a możesz podać jakiego polecenia dokładnie używasz ?

ritchey · Marzec 14, 2014

@Update

Chyba już rozwiązałem problem.

Pierwotnie korzystałem z dość starej wersji smartctl-a 5.40 z 2010r. (wersja domyślnie instalowana apt-get em).

Natomiast teraz pobrałem najnowszą wersję 6.2 - która wydaje się działać już prawidłowo z tą macierzą HP.

Tak więc komendy podane przez Miłosza i Patryka działają w porządku - dzięki.

smartctl -a -d cciss,X /dev/sg0

Dyski mają wskaźnik Media_Wearout_Indicator na poziomie 99% (czyli dopiero 1% zużycia). To mnie trochę dziwi - ponieważ od ponad roku jest na nich zapisywane bardzo duża ilość danych. Przed chwilą sprawdzałem iostat-em statystyki z ostatniego m-ca - wychodzi że średnio na minutę jest zapisywane 360 MB, co daje 518 GB/dzień i ponad 15 TB/m-c. Czy to możliwe że przy tak dużej orce było takie małe zużycie dysku ? Chyba że iostat jakoś przekłamuje te wartości ?

elcct · Marzec 14, 2014

Dnia 3/14/2014 o 00:28, ritchey napisał:

@Update

Dyski mają wskaźnik Media_Wearout_Indicator na poziomie 99% (czyli dopiero 1% zużycia). To mnie trochę dziwi - ponieważ od ponad roku jest na nich zapisywane bardzo duża ilość danych. Przed chwilą sprawdzałem iostat-em statystyki z ostatniego m-ca - wychodzi że średnio na minutę jest zapisywane 360 MB, co daje 518 GB/dzień i ponad 15 TB/m-c. Czy to możliwe że przy tak dużej orce było takie małe zużycie dysku ? Chyba że iostat jakoś przekłamuje te wartości ?

Ja to tak rozumiem, że jeżeli jest napisane, że dysk powinien wytrzymać 100k zapisów, to chodzi o zapisanie go do pełna tyle razy. W Twoim przypadku jeżeli powiedzmy dysk ma pojemność 240GB to przez dzień by dawało ok. 2,5 takich zapisów, to by znaczyło, że dysk powinien wytrzymać 40000 dni - jakieś 109 lat. Czyli jeśli używałeś go w ten sposób przez rok, to zużycie 1% wydaje się być poprawne.

malu · Marzec 14, 2014

Właśnie chciałem Ci zasugerować kompilację najnowszego smartmontools'a.

Odnośnie wykorzystania dysku to jeżeli używasz ext4 to pokaż:
tune2fs -l /dev/$orana-partycja

Wartość: "Lifetime writes:"

theONE · Marzec 14, 2014

A takie pytanie z innej beczki, kontroler masz aktualny?

ritchey · Marzec 14, 2014

Dnia 3/14/2014 o 14:41, malu napisał:

Właśnie chciałem Ci zasugerować kompilację najnowszego smartmontools'a.

Odnośnie wykorzystania dysku to jeżeli używasz ext4 to pokaż:

tune2fs -l /dev/$orana-partycja

Wartość: "Lifetime writes:"

Dzięki Mateusz,

tune2fs podaje 176 TB.

To by się zgadzało z iostat-em (12 m-cy razy ok 15TB/m-c).

Z tego co widzę to Intel SSD 520 ma żywotność 5000 cykli zapisu dla komórki pamięci.

To by oznaczało że max. żywotność dysku to 1 TB (taka jest łączna pojemność macierzy) * 5000 = czyli 5000TB.

Ale to jest dla idealnego przypadku przy równomiernym rozkładzie. W praktyce wartość tą należy kilkukrotnie zmniejszyć - powiedzmy do ok 1000 TB. To by oznaczało że dysk powinien mieć ok 15-20% zużycia.

A ma tylko 1%.

Trochę pomyślałem z czego to może wynikać i już chyba wiem.

Ta macierz ma 1 GB cache-u (Battery Backed Write Cache). Natomiast specyfika aplikacji na serwerze jest taka - że te 500 GB dziennego zapisu dotyczy mniej więcej przestrzeni dysku o rozmiarze mniejszym niż 1 GB (tylko że jest ona kilkusetkrotnie modyfikowana i zapisywana na nowo). To powoduje że ten cache w dużym stopniu eliminuje większość zapisów na dysku SSD. Po prostu wielokrotne zapisy dot. tego samego obszaru dysku scala w jeden zapis. I jak widać całkiem nieźle mu to wychodzi

Dnia 3/14/2014 o 17:50, theONE napisał:
A takie pytanie z innej beczki, kontroler masz aktualny?

Czy mógłbyś wyjaśnić co znaczy "aktualny kontroler" ?

Edytowano Marzec 14, 2014 przez ritchey (zobacz historię edycji)

theONE · Marzec 14, 2014

Aktualny firmware

Pewność że kontroler umie współpracować z tym dyskiem i zarządzać ich zużyciem

malu · Marzec 14, 2014

To znaczy w HP standardowo ddwc masz wyłączone, a więc wyjaśnienie z 1GB cache nie do końca się pokrywa. No chyba, że z poziomu hpacucli włączałeś ddwc.

ritchey · Marzec 14, 2014

Hmm rzeczywiście Disk Write Cache jest Disabled:

   Cache Board Present: True
   Cache Status: OK
   Cache Ratio: 10% Read / 90% Write
   Drive Write Cache: Disabled
   Total Cache Size: 1024 MB
   Total Cache Memory Available: 816 MB
   No-Battery Write Cache: Disabled
   Cache Backup Power Source: Capacitors
   Battery/Capacitor Count: 1
   Battery/Capacitor Status: OK

Więc teraz już nic nie rozumiem.

A dlaczego HP domyślnie wyłącza cache ? Czy może on powodować jakieś problemy ?

Wersja firmaware macierzy to 3.22.

Edytowano Marzec 14, 2014 przez ritchey (zobacz historię edycji)

theONE · Marzec 14, 2014

Na tych intelach z tego co pamiętam nie ma podtrzymania zasilania do cache wiec można stracić dane w przypadku utraty zasilania.

ritchey · Marzec 14, 2014

Dnia 3/14/2014 o 20:53, theONE napisał:
Na tych intelach z tego co pamiętam nie ma podtrzymania zasilania do cache wiec można stracić dane w przypadku utraty zasilania.

Na Intelach nie, podobnie zresztą na innych dyskach SSD - ale mam na myśli macierz RAID HP SmartArray - ona ma podtrzymywanie bateryjne.

Mam jeszcze takie wytłumazcenie, że O/S zapisuje na dysk całe bloki/sektory i to w nich liczy ilość zapisanych danych. Natomiast przeważnie jest tak że na zapisywanym bloku faktycznej zmianie ulega tylko jego niewielki fragment. Może firmware w SSD - porównuje zapisywane bloki z dotychczasowym stanem i modyfikuje jedynie te komórki, które rzeczywiście uległy zmianie. Tym samym ilość zapisywanych komórek znacznie się zmniejsza ?

Zaloguj się

Sprawdzenie stanu SSD za sprzętowym RAID-em

Polecane posty

ritchey 91

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

Miłosz 2311

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

Gość patrys

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

Miłosz 2311

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ritchey 91

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

theONE 526

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ritchey 91

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

malu 460

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ritchey 91

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ritchey 91

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

elcct 159

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

malu 460

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

theONE 526

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ritchey 91

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

theONE 526

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

malu 460

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ritchey 91

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

theONE 526

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

ritchey 91

Udostępnij ten post

Link to postu

Udostępnij na innych stronach

Bądź aktywny! Zaloguj się lub utwórz konto