Portál AbcLinuxu, 29. května 2024 17:46
# journalctl -u smartd jún 06 20:55:57 host smartd[765]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 57 to 59 jún 06 20:55:58 host smartd[765]: Device: /dev/sde [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 120 to 99 jún 06 20:55:58 host smartd[765]: Device: /dev/sde [SAT], SMART Usage Attribute: 195 ECC_Uncorr_Error_Count changed from 100 to 120 .. jún 10 23:13:39 host smartd[751]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 58 to 57 jún 10 23:43:39 host smartd[751]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 57 to 59 jún 11 10:45:56 host smartd[757]: Device: /dev/sdf [SAT], no SMART Error Log, ignoring -l error (override with -T permissive) jún 11 11:15:58 host smartd[757]: Device: /dev/sdf [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 120 to 100 jún 11 11:15:58 host smartd[757]: Device: /dev/sdf [SAT], SMART Usage Attribute: 195 ECC_Uncorr_Error_Count changed from 100 to 120okrem jedneho ssd (system) su to vsetky klasicke hdd od roznych vyrobcov a rozne stare.
Řešení dotazu:
Raw_Read_Error_Rate changed from 57 to 59
- vlastně došlo ke zlepšení stavu. 59 je lépe než 57.
Zrovna uvedeným atributům není potřeba dávat větší pozornost. Důležité jsou:
5 Reallocated_Sector_Ct 196 Reallocated_Event_Count 197 Current_Pending_Sector 198 Offline_UncorrectableDál, hodnotu VALUE (to je to, co se píše do toho logu) nemá smysl sledovat. Ta je předžvýkaná FW disku právě jako hodnota mezi MAX a 0. Celkem na prd. Co má smysl sledovat je RAW_VALUE, která přímo udává hodnotu daného atributu (třeba právě počet realokovaných sektorů). Viděl jsem disk s několika tisíci realokovanými sektory o kterém jeho FW vesele tvrdil, že je zcela v pořádku (RAW_VALUE několik tisíc, VALUE 100, MAX 100 - podle výrobce zcela zdravý disk). Samozřejmě, že není. Disk je na zralý na reklamaci už v případě, že Current_Pending_Sector > 0 (RAW_VALUES), tedy více než 0 podezřelých sektorů. Další ukázka:
9 Power_On_Hours 040 040 000 Old_age Always 44475Disk má naběháno 44tisíc hodin, ale VALUE je stále 40, což je MAX, a za celý život disku to bylo 40 (WORST) a prahová hodnota je 0 (THRESH). To znamená, že podle FW tohoto disku je očekávaná doba života asi nekonečno, protože ani po 44 tisících hodinách VALUE neklesla ani o 1. Snad jsem to objasnil. Některé atributy nemá smysl sledovat, určitě nemá smysl sledovat VALUE, rozhodně je dobré sledovat RAW_VALUE u atributů ohledně vadných sektorů a má smysl dělat pravidelně smart testy (jde to nastavit v konfiguraci smartd). A nastavit si emailové upozornění v případě chyby disku (neprojde testem, má vadné sektory apod.).
Disk má naběháno 44tisíc hodin, ale VALUE je stále 40, což je MAXTak oprava. Díval jsem se na jiný sloupec (hodnota MAX se běžně nikde neudává, mám to z CSV smartmontools, kde je ten disk od počátku veden), takže PowerOnHours klesá o 1 u tohoto disku přibližně každých 1000 hodin. Takže očekávaná doba života disku podle WD je 100tisíc hodin (pokud to mají lineární - což se taky nikde nedozvíte). Platí to co jsem psal, value nemá smysl, má smysl jen raw pro vybrané attr (ohledně sektorů).
Raw_Read_Error_Rate
v položce RAW_VALUE závisí na výrobci. Seagate tam píše (inkrementuje) hodnoty skutečně chyb čtení s disku, které cyklují v 32 bitovém čísle. ( Někdy jsem je používal při sledování kvality povrchu tím, že jsem je odčítal v pravidelných intervalech při formátování. A bylo vidět, jak má disk oblasti kde inkrementy nabíhají pomalu a jinde kde mnohem rychleji.) WD píše nějaké nicneříkající abstraktní numero.
Tiskni Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.