Tak, każdy z Was może przewidzieć awarię dysku twardego dzięki pięciu parametrom SMART dysku twardego ze skutecznością 76,7%.

Firma BackBlaze na swoim blogu opisała w jaki sposób przewiduje awarię dysku twardego. Zanim opiszę jak to robią trzeba dodać, że firma BackBlaze ma bardzo duże doświadczenie, na dzień dzisiejszy firma ma prawie 70000 dysków, które mają różne pojemności i pochodzą od różnych producentów.

SMART dysku twardego powie Ci prawdę

Firma BackBlaze codziennie zbiera dane SMART z wszystkich dysków i na przestrzeni lat zauważono, że monitorując tylko 5 parametrów SMART są w stanie przewidzieć awarię dysku twardego. Poniżej lista tych parametrów, należy dodać, że ich wartość dla nowych dysków twardych jest równa zero.

Kluczowe parametry SMART dla dysków twardych
Kluczowe parametry SMART dla dysków twardych

Firma BackBlaze zauważyła, że większość dysków twardych, które uległy awarii dla przynajmniej jednego z powyższych pięciu parametrów SMART miały wartości dużo wyższe niż zero. Niemniej jednak BackBlaze wyraźnie zaznacza, że niektóre dyski działają bez problemu, mimo iż wyżej wymienione parametry są większe niż zero.

Stosunek % kluczowych parametrów SMART w dyskach dobrych i uszkodzonych
Stosunek % kluczowych parametrów SMART w dyskach dobrych i uszkodzonych

Z powyższych danych wynika, że 23,3% dysków twardych, które uległy awarii miały prawidłową wartość dla powyższych 5 parametrów. Oznacza to, że w przypadku 76,7% przypadków BackBlaze prawidłowo identyfikuje dyski uszkodzone.

BackBlaze poinformował, że uszkodzone dyski monitowały błąd przynajmniej w jednym z 5 parametrów SMART, poniżej widzimy jak to wyglądało procentowo, w stosunku do dysków które monitowały błędy, ale nie uległy awarii.

Statystki SMART
Statystki SMART

Czas ma duże znaczenie – to bardzo ważna zmienna

Błędy monitowane przez SMART nie są niczym nowym, niemniej jednak trzeba pamiętać, że nawet jak dysk będzie pokazywał wysoki współczynnik błędu, to wcale nie oznacza, że za moment ulegnie on awarii. Przykładowo SMART 5 w jednym z dysków w ciągu jednego dnia pokaże 19 błędów, a drugi będzie miał 63 po pięciu latach – w tym przypadku oczywiste jest, że ten pierwszy ma problem.

Na swoim blogu BackBlaze informuje, że rozważa dodanie do powyższej listy kolejnego szóstego parametru, który umożliwi im uzyskanie skuteczności na poziomie wyższym niż 76,7%. Dodatkowo tłumaczą jaki wpływ na awaryjność dysków ma liczba cykli włączania dysków twardych.

Jak odczytać SMART?

Jeżeli dyski masz włożone w serwerze NAS typu QNAP to wystarczy zalogować się do panelu zarządzania, następnie klikamy na ikonę Menedżera pamięci, w którym po uruchomieniu wybieramy zakładkę Dyski/VJBOD i klikamy na opcję Stan dysku.

SMART dysku w serwerze NAS firmy QNAP
SMART dysku w serwerze NAS firmy QNAP

Co ważne w serwerach NAS firmy QNAP oprócz podglądu na aktualny stan parametrów SMART, mamy dodatkowo możliwość uruchamiania testów, pełnych lub tzw. szybkich – testowane są tylko najważniejsze parametry – a to wszystko zgodnie z ustalonym harmonogramem. Dzięki takim narzędziom i informacją, które przeczytaliście powyżej bez problemu powinniście w odpowiednim momencie zauważyć, kiedy dany dysk kończy swój żywot.

4 Comments

  • CharlieK, 27 lipca 2017 @ 01:23 Reply

    Czy włączenie testu dysku, np. pełnego testu, co jak rozumiem wiąże się ze sporymi operacjami zapisu i odczytu – czy to powoduje, że taki testowany dysk zostaje na czas testów wyłączony z puli RAID i po testach z powrotem włączony do tejże puli ?

    • Grzegorz Bielawski, 27 lipca 2017 @ 07:45 Reply

      Dysk podczas testów pozostaje w puli RAID i nie jest z niej odłączany. Co więcej podczas testów nadal możesz korzystać z danych na nim zapisanych. Jedyny minus to taki, że testu mocno go obciążają więc wydajność systemu będzie mniejsza.

      • CharlieK, 27 lipca 2017 @ 08:26 Reply

        Jak rozumiem – obniżenie wydajności jednego dysku – obniża wtedy wydajność całej puli RAID ? Mhm, to przy dużych pulach, np. mających po kilkanaście dysków w jednej puli przykładowo RAID-6 – troszkę będzie wydajnościowa katastrofa podczas równoległej eksploatacji danych z tej puli 🙁

        • Grzegorz Bielawski, 27 lipca 2017 @ 09:07 Reply

          Realnie patrząc spadek wydajności będzie na poziomie około 20%-30%. Katastrofą byłoby odłączenie dysku z RAID, testowanie go niezależnie i później dodawanie go ponownie do RAID a następnie synchronizowanie RAID. To byłaby katastrofa 🙂

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *