Wszyscy wiedzą, że w systemach do przechowywania danych opartych na dyskach HDD obowiązuje reguła 80%, która to mówi, że nie należy wykorzystywać więcej niż 80% dostępnej przestrzeni dyskowej. Takie zalecenia padają ze strony producentów dysków jak i producentów systemów typu NAS czy SAN. Niektórzy zadają sobie bardzo zasadne pytanie,
Co się stanie jeżeli reguła 80% zostanie zignorowana ?
ale zdecydowana większość po prostu decyduje się na zignorowanie tej reguły. Wynika to z tego, że jak ktoś już zapłacił za 500TB to chce wykorzystać całe 500TB, a nie tylko 400TB, bo niby dlaczego miałby stracić 100TB, za które w końcu zapłacił nie małe pieniądze ?
Systemy storage nie są beczką wina, którą możesz wypełnić po brzegi, tutaj natkniesz się na wiele problemów jeszcze zanim wykorzystasz całą przestrzeń dyskową
No to o co tu chodzi ?
Wydajność dysku HDD, którą gwarantują nam producenci spada gwałtownie, właśnie po przekroczeniu magicznego limitu 80%, wynika to z ograniczeń fizycznych oraz fragmentacji.
Zacznijmy od początku
Wielkość sektora
Jak wiecie na dyskach twardych występują różne rozmiary sektorów. Stary standardowy 512-bajtowy służył bardzo dobrze przez wiele lat. Kiedy jednak wzrosło zapotrzebowanie na większe przestrzenie dyskowe, producenci dysków twardych musieli znaleźć skuteczniejsze sposoby przechowywania danych. Dlatego zwiększyli ilość sektorów w tej samej przestrzeni fizycznej talerza, logicznie zmniejszając rozmiar każdego sektora. Znacznie węższe sektory pozwoliły na przechowywanie większej ilości danych, ale korekcja błędów dysku (ECC) nie działała już tak wydajnie. Przy tak dużym zagęszczeniu danych zapisanych magnetycznie i talerzami obracającymi się coraz szybciej, występowało więcej błędów odczytu i zapisu.
W 2009-2010 producenci dysków zdecydowali się na zmianę wielkości sektora do 4KB. Czterokrotnie większy sektor efektywniej wykorzystywał dostępną przestrzeń oraz znacznie poprawił działanie ECC. Zmiana wielkości sektora na 4KB zwiększyła też przepustowość per jeden obrót talerza.
Prędkość obrotowa
Drugim krytycznym parametrem jest ilość pełnych obrotów talerza na minutę (RPM). W tym momencie na rynku mamy dyski o prędkości 5400RPM, 7200RPM, 10000RPM i 15000RPM. Większa ilość RPM gwarantuje nam większą przepustowość, ale także większą liczbę IOPS.
Wykonywanie operacji na dysku bez znaczenie czy jest to zapis czy odczyt zawsze składa się z czterech etapów:
- Ustawienie głowicy w pozycji startowej
- Czas na wyszukanie miejsca gdzie będą wykonywane operacje na dysku
- Ustawienie głowicy w wyszukanym miejscu (opóźnienie wynikające z rotacji talerza)
- Operacja na danych
W tym miejscu warto dodać, że macierz dyskowa ma za zadanie przechowywać i udostępniać w jednym miejscu dane dla większej grupy osób, więc należy założyć, że w tym samym czasie do danych na serwerze będzie chciało się dostać kilka osób. Wtedy z punktu widzenia macierzy wydajność nadal będzie na tym samym poziomie, ale z punkty widzenia klienta będzie się wydawało, że mamy spadek wydajności, podczas gdy tak nie jest i warto o tym pamiętać.
Zapis/Odczyt
Nowy dysk zawsze najpierw zapisuje dane na zewnętrznych cylindrach, a następnie przesuwa się do wewnętrznych ścieżek. Logicznie na zewnętrznej części dysku można przechowywać więcej sektorów. Dlatego sensowne jest wykonanie testu prędkości w tym zewnętrznym obszarze, gdzie więcej cylindrów można uzyskać za jednym obrotem.
Poniżej fikcyjna tabelka, która pokazuje jak może wyglądać wydajność dysków, przy założeniu, że test robiliśmy na zewnętrznym obszarze dysku.
Wielkość | RPM | ODCZYT |
2TB | 5400 | 80MB/s |
2TB | 7200 | 100MB/s |
2TB | 10K | 115MB/s |
2TB | 15K | 130MB/s |
Nieubłagana fizyka
W celu zapewnienia bezpieczeństwa danych większość systemów storage traci około 30% miejsca po skonfigurowaniu RAID. Do tego producenci zalecają, aby dodatkowo odpuścić kolejne 20%. Czyli tak naprawdę mamy do wykorzystanie 50% przestrzeni, za którą zapłaciliśmy. Też się to Wam nie podoba ?
Jednak nieuchronna rzeczywistość polega na tym, że docierasz do określonego obszaru na twardym dysku, gdzie zaczynasz walczyć z nieustępliwą fizyką. Jak pokazano powyżej, zewnętrzne ścieżki dysku mają naturalnie więcej sektorów w porównaniu do wewnętrznych ścieżek. Logicznie, jest więcej miejsca na dane do zapisania/odczytu na obrót. Oznacza to, że powyższa fikcyjna tabela wydajności nie zapewnia tej samej wydajności, gdy użyto więcej niż 80% dysku. Po przekroczeniu tego progu bardziej realistyczna tabela prawdopodobnie będzie wyglądać tak:
Wielkość | RPM | ODCZYT |
2TB | 5400 | 40MB/s |
2TB | 7200 | 55MB/s |
2TB | 10K | 80MB/s |
2TB | 15K | 85MB/s |
Oczywiście rzeczywiste liczby zależą w dużej mierze od wielkości dysku, modelu i producenta. Poniżej porównanie dwóch dysków SATA 3G 2 TB, jednego HGST (HUS724040AL), a drugiego dysku WD (WD2003FYYS):
Dysk pusty | Dysk zajęty w 50% | Dysk zajęty w 90% | |
HGST | 135.08 MB/sec | 114.99 MB/sec | 74.02 MB/sec |
WD | 101.62 MB/sec | 78.70 MB/sec | 49.02 MB/sec |
Ludzie bardzo szybko przyzwyczajają się do wysokich prędkości. Oznacza to, że będą oczekiwać tej samej wydajności na zawsze, bez względu na wszystko, a jak widać powyższa tabela pokazuje, że im więcej danych tym będzie wolniej.
Stosujesz regułę 80% i nic o tym nie wiesz !
Fizyki się nie oszuka, do tego zdecydowana większość osób nie stosuje reguły 80%, dlatego niektórzy producenci dysków sprzedają nam dyski większe niż w rzeczywistości deklarują. Możesz kupić system 100TB, ale w rzeczywistości masz 120TB, oczywiście nie widzisz tych 20TB, bo są one tylko po to, aby zastosowanie miała reguła 80%. Ten trik pozwala producentom dysków zagwarantować, że wydajność dysku nawet po jego zapełnieniu nie spadnie poniżej sensownego minimum.
Podsumowanie
Czy tego chcesz czy nie, reguła 80% to podstawa. Nie ważne czy masz wydajny SAN czy NAS, a może super wydajne klastry, jeżeli zapełnisz dyski HDD to wydajność poleci na łeb na szyję. Co gorsza, na wydajność nie ma wpływu tylko sam dysk, dodatkowo dobić nas może sama fragmentacja, o której w tym artykule nie napisaliśmy prawie nic.
Wniosek jest jeden, jeżeli masz pieniądze to zawsze kupuj dyski o większej pojemności, bo jak widzisz % wykorzystania ich pojemności ma bardzo duży wpływ na wydajność całego systemu storage.
Źródło: http://www.studiodaily.com/