HBase
 sql >> Baza danych >  >> NoSQL >> HBase

Hadoop Combiner Wprowadzenie, działanie i zalety

W tym samouczku Hadoop , dostarczymy Ci szczegółowy opis Hadoop Combiner. Przede wszystkim zobaczymy, czym jest MapReduce Combiner, jaka jest kluczowa rola Combinera w MapReduce.

Następnie omówimy przykład programu MapReduce z i bez łączenia w Hadoop. W końcu zobaczymy również zalety i wady Combinera w MapReduce.

 Co to jest narzędzie Hadoop Combiner?

Łącznik jest również znany jako „Mini-reduktor ” podsumowujący Twórca map wyprowadź rekord z tym samym kluczem przed przejściem do Reduktora .

Na dużym zbiorze danych, gdy uruchamiamy zadanie MapReduce. Tak więc Mapper generuje duże porcje danych pośrednich. Następnie platforma przekazuje te dane pośrednie do Reduktora w celu dalszego przetwarzania.

Prowadzi to do ogromnego przeciążenia sieci. Platforma Hadoop udostępnia funkcję znaną jako Combiner która odgrywa kluczową rolę w zmniejszaniu przeciążenia sieci.

Podstawowym zadaniem Combinera „Mini-Reducer” jest przetwarzanie danych wyjściowych z Mappera, przed przekazaniem ich do Reduktora. Biegnie za maperem, a przed reduktorem. Jego użycie jest opcjonalne.

Jak działa Combiner w Hadoop?

Teraz dowiedzmy się, jak rzeczy się zmieniają, gdy używamy łączenia w MapReduce?

Jak widać na powyższym schemacie, nie ma tam sumatora. Dane wejściowe są podzielone na dwa mapery. Framework generuje 9 kluczy z maperów.

Tak więc teraz mamy (9 klucz/wartość) dane pośrednie. Dalsze mapowanie wysyła tę para klucz-wartość bezpośrednio do reduktora. Wysyłając dane do reduktora, zużywa część przepustowości sieci. Przesyłanie danych do reduktora zajmuje więcej czasu, jeśli rozmiar danych jest duży.

Teraz z powyższego diagramu, jeśli użyjemy sumatora pomiędzy maperem a reduktorem. Następnie sumator przetasuje 9 kluczy/wartości przed wysłaniem ich do reduktora. A następnie generuje 4 pary klucz/wartość jako dane wyjściowe.

Teraz Reducer musi przetworzyć tylko 4 dane pary klucz/wartość, które są generowane z 2 sumatorów. Dlatego reduktor jest wykonywany tylko 4 razy, aby uzyskać ostateczny wynik. W ten sposób zwiększa to ogólną wydajność.

Zalety Combinera w MapReduce

Omówmy teraz zalety Hadoop Combiner w MapReduce.

  • Użycie sumatora skraca czas potrzebny na transfer danych między maperem a reduktorem.
  • Łącznik poprawia ogólną wydajność reduktora.
  • Zmniejsza ilość danych, które reduktor musi przetworzyć.

Wady łączenia w MapReduce

Hadoop Combiner ma też pewne wady. Porozmawiajmy teraz o tym samym.

  • W lokalnym systemie plików, gdy Hadoop przechowuje pary klucz-wartość i uruchamia program łączący później, spowoduje to kosztowne IO dysku.
  • Zadania MapReduce nie mogą zależeć od wykonania łączenia, ponieważ nie ma gwarancji jego wykonania.

Wniosek

Dlatego Hadoop Combiner odgrywa kluczową rolę w zmniejszaniu przeciążenia sieci. Poprawia ogólną wydajność reduktora, podsumowując dane wyjściowe Mappera.

Mam nadzieję, że teraz dobrze rozumiesz Hadoop Combiner. Jeśli nadal masz jakieś pytania, daj nam znać, zostawiając komentarz w sekcji poniżej.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Spark-on-HBase:złącze HBase oparte na DataFrame

  2. Tworzenie aplikacji do uczenia maszynowego za pomocą środowiska pracy i operacyjnej bazy danych Cloudera Data Science, część 1:Konfiguracja i podstawy

  3. Przykładowa tabela HBase

  4. Problem z małymi plikami

  5. Przedstawiamy zasady partycji kompaktowania Apache HBase Medium Object Storage (MOB)