HBase
 sql >> Baza danych >  >> NoSQL >> HBase

Świadomość szafy w Hadoop i jej zalety

Ten samouczek Hadoop to wszystko o Rack Awareness w Hadoop. W tym blogu opiszemy wszystkie aspekty świadomości szafy w HDFS .

Przede wszystkim przestudiujemy, czym jest właściwość HDFS Rack Awareness, jaka jest potrzeba Rack Awareness w Hadoop. Następnie omówimy rozmieszczenie replik za pomocą funkcji Rack Awareness w HDFS.

Na koniec omówimy również różne zalety funkcji Rack Awareness w ramach Hadoop.

Wprowadzenie do świadomości szafy HDFS

Świadomość stojaka w Hadoop to koncepcja, która wybiera bliższe Datanode na podstawie informacji o szafie. Domyślnie instalacja Hadoop zakłada, że ​​wszystkie węzły należą do tego samego stojaka.

Aby poprawić ruch sieciowy podczas odczytu/zapisu plików HDFS w dużych klastrach Hadoop. NameNode wybiera węzły danych, które znajdują się na tym samym stojaku lub pobliskiej skale do żądań odczytu/zapisu (węzeł klienta). HDFS Namenode uzyskuje te informacje o stojaku, utrzymując identyfikatory stojaka każdego węzła danych.

Dlaczego świadomość szafy?

Głównym celem świadomości szafy jest:

  • Popraw niezawodność i dostępność danych.
  • Lepsza wydajność klastra.
  • Zapobiega utracie danych w przypadku awarii całego stojaka.
  • Aby poprawić przepustowość sieci.
  • Utrzymuj przepływ masowy w szafie, jeśli to możliwe.

Umieszczanie replik za pomocą funkcji Rack Awareness w Hadoop

Głównym celem umieszczania replik za pomocą świadomości szafy jest poprawa niezawodności danych itp.

Prostą zasadą jest umieszczanie replik na stojaku, aby zapobiec utracie danych w przypadku awarii całego stojaka. I pozwól na wykorzystanie przepustowości z wielu stojaków podczas odczytu pliku.

W wielu klastrach stojaków zablokuj replikacja jest zgodna z poniższą polityką:

Nie należy umieszczać więcej niż jednej repliki na jednym węźle. Nie należy również umieszczać więcej niż dwóch replik na tym samym stojaku. Ma to wąskie gardło polegające na tym, że liczba stojaków wykorzystywanych do replikacji bloków powinna być zawsze mniejsza niż całkowita liczba replik bloków.

Na przykład;

  • Gdy platforma Hadoop tworzy nowy blok, umieszcza pierwszą replikę w węźle lokalnym. I umieść drugi w innym stojaku, a trzeci w innym węźle w węźle lokalnym.
  • Podczas ponownej replikacji bloku, jeśli liczba istniejących replik wynosi jeden, umieść drugą na innym stojaku.
  • Gdy liczba istniejących replik wynosi dwa, jeśli dwie repliki znajdują się w tym samym stojaku, umieść trzecią na innym stojaku.

Zalety świadomości szafy w Hadoop

Omówmy teraz niektóre zalety funkcji Rack Awareness w Hadoop HDFS-

  • Zapewnij wyższą przepustowość i niskie opóźnienia –  Ta zasada maksymalizuje przepustowość sieci, przenosząc blok w obrębie szafy, a nie między szafami. YARN jest w stanie zoptymalizować wydajność zadań MapReduce, przypisując zadania do węzłów, które są bliżej ich danych pod względem topologii sieci.
  • Zapewnia ochronę danych przed awarią szafy —  Namenode przypisuje repliki bloków 2 i 3 Block do węzłów w innym stojaku niż pierwsza replika. W ten sposób zapewnia ochronę danych nawet w przypadku awarii szafy rack. Jest to jednak możliwe tylko wtedy, gdy Hadoop został skonfigurowany ze znajomością konfiguracji stojaka.
  • Zminimalizuj koszty pisania i zmaksymalizuj prędkość odczytu –  Świadomość stojaka, polityka umieszcza żądania odczytu/zapisu w replikach znajdujących się w tym samym stojaku. W ten sposób minimalizuje to koszt pisania i maksymalizuje prędkość czytania.

Wniosek

Podsumowując, jest to koncepcja, która wybiera bliższe Datanode w oparciu o informacje o szafie w celu poprawy niezawodności danych. Głównym celem Rack-Awareness jest zapobieganie utracie danych w przypadku awarii całego stojaka. Poprawia również przepustowość sieci. Dowiedz się więcej o właściwościach HDFS.

Jeśli masz jakieś pytania związane z Rack Awareness w Hadoop, podziel się nimi z nami w sekcji komentarzy. Postaramy się jak najlepiej pomóc.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Cloudera Impala:zapytania w czasie rzeczywistym w Apache Hadoop, na serio

  2. Wykorzystanie COD i CML do tworzenia aplikacji, które przewidują dane giełdowe

  3. Operacyjna baza danych w CDP

  4. Wewnątrz architektury pozyskiwania danych w czasie zbliżonym do rzeczywistego Santander (część 2)

  5. Tworzenie aplikacji do uczenia maszynowego za pomocą środowiska pracy i operacyjnej bazy danych Cloudera Data Science, część 1:Konfiguracja i podstawy