W tym samouczku Hadoop , dostarczymy Ci szczegółowy opis Hadoop Combiner. Przede wszystkim zobaczymy, czym jest MapReduce Combiner, jaka jest kluczowa rola Combinera w MapReduce.
Następnie omówimy przykład programu MapReduce z i bez łączenia w Hadoop. W końcu zobaczymy również zalety i wady Combinera w MapReduce.
Co to jest narzędzie Hadoop Combiner?
Łącznik jest również znany jako „Mini-reduktor ” podsumowujący Twórca map wyprowadź rekord z tym samym kluczem przed przejściem do Reduktora .
Na dużym zbiorze danych, gdy uruchamiamy zadanie MapReduce. Tak więc Mapper generuje duże porcje danych pośrednich. Następnie platforma przekazuje te dane pośrednie do Reduktora w celu dalszego przetwarzania.
Prowadzi to do ogromnego przeciążenia sieci. Platforma Hadoop udostępnia funkcję znaną jako Combiner która odgrywa kluczową rolę w zmniejszaniu przeciążenia sieci.
Podstawowym zadaniem Combinera „Mini-Reducer” jest przetwarzanie danych wyjściowych z Mappera, przed przekazaniem ich do Reduktora. Biegnie za maperem, a przed reduktorem. Jego użycie jest opcjonalne.
Jak działa Combiner w Hadoop?
Teraz dowiedzmy się, jak rzeczy się zmieniają, gdy używamy łączenia w MapReduce?
Jak widać na powyższym schemacie, nie ma tam sumatora. Dane wejściowe są podzielone na dwa mapery. Framework generuje 9 kluczy z maperów.
Tak więc teraz mamy (9 klucz/wartość) dane pośrednie. Dalsze mapowanie wysyła tę para klucz-wartość bezpośrednio do reduktora. Wysyłając dane do reduktora, zużywa część przepustowości sieci. Przesyłanie danych do reduktora zajmuje więcej czasu, jeśli rozmiar danych jest duży.
Teraz z powyższego diagramu, jeśli użyjemy sumatora pomiędzy maperem a reduktorem. Następnie sumator przetasuje 9 kluczy/wartości przed wysłaniem ich do reduktora. A następnie generuje 4 pary klucz/wartość jako dane wyjściowe.
Teraz Reducer musi przetworzyć tylko 4 dane pary klucz/wartość, które są generowane z 2 sumatorów. Dlatego reduktor jest wykonywany tylko 4 razy, aby uzyskać ostateczny wynik. W ten sposób zwiększa to ogólną wydajność.
Zalety Combinera w MapReduce
Omówmy teraz zalety Hadoop Combiner w MapReduce.
- Użycie sumatora skraca czas potrzebny na transfer danych między maperem a reduktorem.
- Łącznik poprawia ogólną wydajność reduktora.
- Zmniejsza ilość danych, które reduktor musi przetworzyć.
Wady łączenia w MapReduce
Hadoop Combiner ma też pewne wady. Porozmawiajmy teraz o tym samym.
- W lokalnym systemie plików, gdy Hadoop przechowuje pary klucz-wartość i uruchamia program łączący później, spowoduje to kosztowne IO dysku.
- Zadania MapReduce nie mogą zależeć od wykonania łączenia, ponieważ nie ma gwarancji jego wykonania.
Wniosek
Dlatego Hadoop Combiner odgrywa kluczową rolę w zmniejszaniu przeciążenia sieci. Poprawia ogólną wydajność reduktora, podsumowując dane wyjściowe Mappera.
Mam nadzieję, że teraz dobrze rozumiesz Hadoop Combiner. Jeśli nadal masz jakieś pytania, daj nam znać, zostawiając komentarz w sekcji poniżej.