Ten blog zawiera opis Hadoop Funkcja wysokiej dostępności HDFS. W tym blogu najpierw omówimy, czym dokładnie jest wysoka dostępność, jak Hadoop osiąga wysoką dostępność, jaka jest potrzeba funkcji wysokiej dostępności HDFS.
W tym samouczku Big Data Hadoop omówimy również przykład funkcji wysokiej dostępności Hadoop.
Co to jest wysoka dostępność Hadoop HDFS?
Hadoop HDFS to rozproszony system plików. HDFS dystrybuuje dane między węzłami w klastrze Hadoop, tworząc replikę pliku. Framework Hadoop przechowuje te repliki plików na innych komputerach obecnych w klastrze.
Tak więc, gdy klient HDFS chce uzyskać dostęp do swoich danych, może łatwo uzyskać do nich dostęp z wielu maszyn obecnych w klastrze. Dane są łatwo dostępne w najbliższym węźle w klastrze.
W niektórych niesprzyjających warunkach, takich jak awaria węzła, klient może łatwo uzyskać dostęp do swoich danych z innych węzłów. Ta funkcja Hadoop nazywa się Wysoka dostępność .
Jak osiąga się wysoką dostępność w Hadoop?
W klastrze HDFS znajduje się wiele DataNodes . Po określonym czasie wszystkie te DataNode wysyłają komunikaty pulsu do NameNode . Jeśli NameNode przestaje otrzymywać komunikaty pulsu z któregokolwiek z tych DataNode, zakłada, że jest martwy.
Następnie sprawdza dane obecne w tych węzłach, a następnie wydaje polecenia drugiemu węzłowi danych, aby utworzyć replikę tych danych do innych węzłów danych. Dlatego dane są zawsze dostępne.
Kiedy klient prosi o dostęp do danych w HDFS, w pierwszej kolejności NameNode wyszukuje dane w tych datanodach, w których dane są szybko dostępne. A następnie zapewnia dostęp do tych danych klientowi.
Klienci nie muszą szukać danych we wszystkich datanodach. Sam HDFS Namenode ułatwia klientom dostęp do danych, podając adres węzła danych, z którego użytkownik może bezpośrednio czytać.
Przykład wysokiej dostępności Hadoop
Hadoop HDFS zapewnia wysoką dostępność danych. Gdy klient zażąda dostępu do danych NameNode, NameNode wyszukuje wszystkie węzły, w których te dane są dostępne.
Następnie zapewnia dostęp do tych danych użytkownikowi z węzła, w którym dane były szybko dostępne. Podczas wyszukiwania danych na wszystkich węzłach w klastrze, jeśli NameNode stwierdzi, że jakiś węzeł jest martwy, to bez wiedzy użytkownika NameNode przekierowuje użytkownika do innego węzła, w którym dostępne są te same dane.
Bez przerwy dane są udostępniane użytkownikowi. Tak więc w warunkach awarii węzła również dane są wysoce dostępne dla użytkowników.
Jakie były problemy w starszych systemach?
- Dane były niedostępne z powodu awarii maszyny.
- Klient HDFS musi długo czekać na dostęp do swoich danych. Przez większość czasu użytkownicy muszą czekać przez określony czas, aż strona internetowa zostanie uruchomiona.
- Ograniczone funkcje i funkcje.
- Ze względu na niedostępność danych realizacja wielu dużych projektów w organizacjach wydłuża się o długi czas, a zatem firmy muszą przechodzić przez sytuacje krytyczne.
Wniosek
W związku z tym dane In Hadoop są wysoce dostępne i dostępne pomimo awarii sprzętu spowodowanej wieloma kopiami danych. Tak więc, jeśli jakikolwiek węzeł lub maszyny ulegną awarii lub przestaną działać, dane, do których możemy uzyskać dostęp do danych z innej ścieżki. Dowiedz się więcej o funkcjach HDFS.
Jeśli uznasz ten blog za pomocny w Hadoop High Availability, podziel się swoimi przemyśleniami w sekcji komentarzy.