HBase
 sql >> Baza danych >  >> NoSQL >> HBase

Zrozumienie funkcji wysokiej dostępności Hadoop

Ten blog zawiera opis Hadoop Funkcja wysokiej dostępności HDFS. W tym blogu najpierw omówimy, czym dokładnie jest wysoka dostępność, jak Hadoop osiąga wysoką dostępność, jaka jest potrzeba funkcji wysokiej dostępności HDFS.

W tym samouczku Big Data Hadoop omówimy również przykład funkcji wysokiej dostępności Hadoop.

Co to jest wysoka dostępność Hadoop HDFS?

Hadoop HDFS to rozproszony system plików. HDFS dystrybuuje dane między węzłami w klastrze Hadoop, tworząc replikę pliku. Framework Hadoop przechowuje te repliki plików na innych komputerach obecnych w klastrze.

Tak więc, gdy klient HDFS chce uzyskać dostęp do swoich danych, może łatwo uzyskać do nich dostęp z wielu maszyn obecnych w klastrze. Dane są łatwo dostępne w najbliższym węźle w klastrze.

W niektórych niesprzyjających warunkach, takich jak awaria węzła, klient może łatwo uzyskać dostęp do swoich danych z innych węzłów. Ta funkcja Hadoop nazywa się Wysoka dostępność .

Jak osiąga się wysoką dostępność w Hadoop?

W klastrze HDFS znajduje się wiele DataNodes . Po określonym czasie wszystkie te DataNode wysyłają komunikaty pulsu do NameNode . Jeśli NameNode przestaje otrzymywać komunikaty pulsu z któregokolwiek z tych DataNode, zakłada, że ​​jest martwy.

Następnie sprawdza dane obecne w tych węzłach, a następnie wydaje polecenia drugiemu węzłowi danych, aby utworzyć replikę tych danych do innych węzłów danych. Dlatego dane są zawsze dostępne.

Kiedy klient prosi o dostęp do danych w HDFS, w pierwszej kolejności NameNode wyszukuje dane w tych datanodach, w których dane są szybko dostępne. A następnie zapewnia dostęp do tych danych klientowi.

Klienci nie muszą szukać danych we wszystkich datanodach. Sam HDFS Namenode ułatwia klientom dostęp do danych, podając adres węzła danych, z którego użytkownik może bezpośrednio czytać.

Przykład wysokiej dostępności Hadoop

Hadoop HDFS zapewnia wysoką dostępność danych. Gdy klient zażąda dostępu do danych NameNode, NameNode wyszukuje wszystkie węzły, w których te dane są dostępne.

Następnie zapewnia dostęp do tych danych użytkownikowi z węzła, w którym dane były szybko dostępne. Podczas wyszukiwania danych na wszystkich węzłach w klastrze, jeśli NameNode stwierdzi, że jakiś węzeł jest martwy, to bez wiedzy użytkownika NameNode przekierowuje użytkownika do innego węzła, w którym dostępne są te same dane.

Bez przerwy dane są udostępniane użytkownikowi. Tak więc w warunkach awarii węzła również dane są wysoce dostępne dla użytkowników.

Jakie były problemy w starszych systemach?

  • Dane były niedostępne z powodu awarii maszyny.
  • Klient HDFS musi długo czekać na dostęp do swoich danych. Przez większość czasu użytkownicy muszą czekać przez określony czas, aż strona internetowa zostanie uruchomiona.
  • Ograniczone funkcje i funkcje.
  • Ze względu na niedostępność danych realizacja wielu dużych projektów w organizacjach wydłuża się o długi czas, a zatem firmy muszą przechodzić przez sytuacje krytyczne.

Wniosek

W związku z tym dane In Hadoop są wysoce dostępne i dostępne pomimo awarii sprzętu spowodowanej wieloma kopiami danych. Tak więc, jeśli jakikolwiek węzeł lub maszyny ulegną awarii lub przestaną działać, dane, do których możemy uzyskać dostęp do danych z innej ścieżki. Dowiedz się więcej o funkcjach HDFS.

Jeśli uznasz ten blog za pomocny w Hadoop High Availability, podziel się swoimi przemyśleniami w sekcji komentarzy.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. HBase BlockCache 101

  2. Wprowadzenie do rozproszonej pamięci podręcznej w Hadoop

  3. Wdrażanie aplikacji w operacyjnej bazie danych CDP (COD)

  4. Ekosystem Hadoop — wprowadzenie do komponentów Hadoop

  5. Spark-on-HBase:złącze HBase oparte na DataFrame