smartd - chyby na vsetkych diskoch?? (vyřešeno)

nie je to trosku zvlastne? este by som pochopil jednu chybu, ale na vsetky disky okrem sda (/steam filesystem), to uz je dost podozrive.

# journalctl -u smartd
jún 06 20:55:57 host smartd[765]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 57 to 59
jún 06 20:55:58 host smartd[765]: Device: /dev/sde [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 120 to 99
jún 06 20:55:58 host smartd[765]: Device: /dev/sde [SAT], SMART Usage Attribute: 195 ECC_Uncorr_Error_Count changed from 100 to 120

..
jún 10 23:13:39 host smartd[751]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 58 to 57
jún 10 23:43:39 host smartd[751]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 57 to 59
jún 11 10:45:56 host smartd[757]: Device: /dev/sdf [SAT], no SMART Error Log, ignoring -l error (override with -T permissive)
jún 11 11:15:58 host smartd[757]: Device: /dev/sdf [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 120 to 100
jún 11 11:15:58 host smartd[757]: Device: /dev/sdf [SAT], SMART Usage Attribute: 195 ECC_Uncorr_Error_Count changed from 100 to 120

okrem jedneho ssd (system) su to vsetky klasicke hdd od roznych vyrobcov a rozne stare.

Ja vim, on vi, ty nano!

Ne, toto nejsou chyby.

Každý smart atribut má nějaký rozsah (MAX, MIN - většinou 0) ve kterém se jeho hodnota pohybuje. Čím menší číslo, tím "horší". Pokud tento atribut klesne pod prahovou hodnotu (THRESH), je zle. Některé atributy ani práh nemají (resp práh je 0).

Tedy konkrétně: Raw_Read_Error_Rate changed from 57 to 59 - vlastně došlo ke zlepšení stavu. 59 je lépe než 57.

Zrovna uvedeným atributům není potřeba dávat větší pozornost. Důležité jsou:

5 Reallocated_Sector_Ct
196 Reallocated_Event_Count
197 Current_Pending_Sector
198 Offline_Uncorrectable

Dál, hodnotu VALUE (to je to, co se píše do toho logu) nemá smysl sledovat. Ta je předžvýkaná FW disku právě jako hodnota mezi MAX a 0. Celkem na prd.

Co má smysl sledovat je RAW_VALUE, která přímo udává hodnotu daného atributu (třeba právě počet realokovaných sektorů). Viděl jsem disk s několika tisíci realokovanými sektory o kterém jeho FW vesele tvrdil, že je zcela v pořádku (RAW_VALUE několik tisíc, VALUE 100, MAX 100 - podle výrobce zcela zdravý disk). Samozřejmě, že není. Disk je na zralý na reklamaci už v případě, že Current_Pending_Sector > 0 (RAW_VALUES), tedy více než 0 podezřelých sektorů.

Další ukázka:

9 Power_On_Hours  040   040   000    Old_age   Always   44475

Disk má naběháno 44tisíc hodin, ale VALUE je stále 40, což je MAX, a za celý život disku to bylo 40 (WORST) a prahová hodnota je 0 (THRESH). To znamená, že podle FW tohoto disku je očekávaná doba života asi nekonečno, protože ani po 44 tisících hodinách VALUE neklesla ani o 1.

Snad jsem to objasnil. Některé atributy nemá smysl sledovat, určitě nemá smysl sledovat VALUE, rozhodně je dobré sledovat RAW_VALUE u atributů ohledně vadných sektorů a má smysl dělat pravidelně smart testy (jde to nastavit v konfiguraci smartd). A nastavit si emailové upozornění v případě chyby disku (neprojde testem, má vadné sektory apod.).

Heron

15.6.2016 08:31 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: smartd - chyby na vsetkych diskoch??

Disk má naběháno 44tisíc hodin, ale VALUE je stále 40, což je MAX

Tak oprava. Díval jsem se na jiný sloupec (hodnota MAX se běžně nikde neudává, mám to z CSV smartmontools, kde je ten disk od počátku veden), takže PowerOnHours klesá o 1 u tohoto disku přibližně každých 1000 hodin. Takže očekávaná doba života disku podle WD je 100tisíc hodin (pokud to mají lineární - což se taky nikde nedozvíte).

Platí to co jsem psal, value nemá smysl, má smysl jen raw pro vybrané attr (ohledně sektorů).

Heron

15.6.2016 11:54 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: smartd - chyby na vsetkych diskoch??

Ještě je třeba doplnit, že Raw_Read_Error_Rate v položce RAW_VALUE závisí na výrobci. Seagate tam píše (inkrementuje) hodnoty skutečně chyb čtení s disku, které cyklují v 32 bitovém čísle. ( Někdy jsem je používal při sledování kvality povrchu tím, že jsem je odčítal v pravidelných intervalech při formátování. A bylo vidět, jak má disk oblasti kde inkrementy nabíhají pomalu a jinde kde mnohem rychleji.) WD píše nějaké nicneříkající abstraktní numero.

16.6.2016 07:16 jose17 | skóre: 44 | blog: Joseho_blog | Bratislava
Rozbalit Rozbalit vše Re: smartd - chyby na vsetkych diskoch??

dakujem obom za fundovane odpovede. mail monitoring si nastavim.

Ja vim, on vi, ty nano!

Dotaz: smartd - chyby na vsetkych diskoch??

Odpovědi