HBase
 sql >> Baza danych >  >> NoSQL >> HBase

6 najważniejszych funkcji HDFS — samouczek Hadoop HDFS

W naszym poprzednim blogu nauczyliśmy się Hadoop HDFS szczegółowo, teraz w tym blogu omówimy funkcje HDFS. Hadoop HDFS ma takie funkcje, jak odporność na awarie, replikacja, niezawodność, wysoka dostępność, rozproszona pamięć masowa, skalowalność itp.

Wszystkie te funkcje HDFS w Hadoop zostaną omówione w tym samouczku Hadoop HDFS.

Wprowadzenie do Hadoop HDFS

Rozproszony system plików Hadoop (HDFS) to podstawowy system pamięci masowej Hadoop. Przechowuje bardzo duże pliki działające na klastrze zwykłego sprzętu. HDFS jest oparty na GFS (Google FileSystem). Niezawodnie przechowuje dane nawet w przypadku awarii sprzętu.

HDFS zapewnia również dostęp do aplikacji o dużej przepustowości poprzez dostęp równoległy. Zgodnie z przewidywaniami do końca 2017 r. 75% danych dostępnych na naszej planecie będzie znajdować się w HDFS.

6 ważnych funkcji HDFS

Po przestudiowaniu wprowadzenia Hadoop HDFS, omówmy teraz najważniejsze funkcje HDFS.

1. Tolerancja błędów

Odporność na awarie w Hadoop HDFS to wytrzymałość systemu w niesprzyjających warunkach. Jest wysoce odporny na uszkodzenia. Framework Hadoop dzieli dane na bloki. Następnie tworzy wiele kopii bloków na różnych komputerach w klastrze.

Tak więc, gdy jakakolwiek maszyna w klastrze ulegnie awarii, klient może łatwo uzyskać dostęp do swoich danych z innej maszyny, która zawiera tę samą kopię bloków danych.

2. Wysoka dostępność

Hadoop HDFS to system plików o wysokiej dostępności. W HDFS dane są replikowane między węzłami w klastrze Hadoop przez utworzenie repliki bloków na innych urządzeniach podrzędnych obecnych w klastrze HDFS. Tak więc za każdym razem, gdy użytkownik chce uzyskać dostęp do tych danych, może uzyskać dostęp do swoich danych z urządzeń podrzędnych, które zawierają jego bloki.

W czasie niekorzystnych sytuacji, takich jak awaria węzła, użytkownik może łatwo uzyskać dostęp do swoich danych z innych węzłów. Ponieważ zduplikowane kopie bloków są obecne na innych węzłach w klastrze HDFS.

3. Wysoka niezawodność

HDFS zapewnia niezawodne przechowywanie danych. Może przechowywać dane w zakresie setek petabajtów. HDFS niezawodnie przechowuje dane w klastrze. Dzieli dane na bloki. Framework Hadoop przechowuje te bloki na węzłach obecnych w klastrze HDFS.

HDFS niezawodnie przechowuje dane, tworząc replikę każdego bloku obecnego w klastrze. W związku z tym zapewnia obiekt odporności na awarie. Jeśli węzeł w klastrze zawierający dane ulegnie awarii, użytkownik może łatwo uzyskać dostęp do tych danych z innych węzłów.

HDFS domyślnie tworzy 3 repliki każdego bloku zawierającego dane obecne w węzłach. Dzięki temu dane są szybko dostępne dla użytkowników. Dzięki temu użytkownik nie boryka się z problemem utraty danych. Dzięki temu HDFS jest wysoce niezawodny.

4. Replikacja

Replikacja danych to unikalne cechy HDFS. Replikacja rozwiązuje problem utraty danych w niekorzystnych warunkach, takich jak awaria sprzętu, awarie węzłów itp. HDFS utrzymuje proces replikacji w regularnych odstępach czasu.

HDFS tworzy również repliki danych użytkownika na różnych maszynach obecnych w klastrze. Tak więc, gdy jakikolwiek węzeł ulegnie awarii, użytkownik może uzyskać dostęp do danych z innych komputerów. Dzięki temu nie ma możliwości utraty danych użytkownika.

5. Skalowalność

Hadoop HDFS przechowuje dane w wielu węzłach w klastrze. Tak więc, ilekroć wymagania wzrosną, możesz skalować klaster. W HDFS dostępne są dwa mechanizmy skalowalności:Pionowy i Skalowalność pozioma.

6. Rozproszona pamięć masowa

Wszystkie funkcje HDFS są osiągane poprzez rozproszoną pamięć masową i replikację. HDFS przechowuje dane w sposób rozproszony w węzłach. W Hadoop dane są dzielone na bloki i przechowywane w węzłach obecnych w klastrze HDFS.

Następnie HDFS tworzy replikę każdego bloku i przechowuje w innych węzłach. Gdy pojedyncza maszyna w klastrze ulegnie awarii, możemy łatwo uzyskać dostęp do naszych danych z innych węzłów, które zawierają jej replikę.

Wniosek

Podsumowując, możemy powiedzieć, że HDFS jest wysoce odporny na błędy. Niezawodnie przechowuje ogromne ilości danych pomimo awarii sprzętu. Zapewnia również wysoką skalowalność i wysoką dostępność. Dlatego HDFS zwiększa funkcjonalność Hadoop. Jeśli znajdziesz jakąkolwiek inną funkcję HDFS, podziel się z nami w sekcji komentarzy poniżej.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Co to jest klasa redukcji Hadoop w MapReduce?

  2. Dostępność operacyjnej bazy danych

  3. Wykorzystanie COD i CML do tworzenia aplikacji, które przewidują dane giełdowe

  4. Instrukcje:indeksowanie zeskanowanych plików PDF na dużą skalę przy użyciu mniej niż 50 wierszy kodu

  5. HBase BlockCache 101