20 Znacząca różnica między Hadoop 2.x a Hadoop 3.x

Cel tego samouczka Hadoop jest zapewnienie lepszego zrozumienia między różnymi wersjami Hadoop. W tym blogu omówiliśmy 20 najważniejszych różnic między Hadoop 2.x a Hadoop 3.x.

Ten blog opisuje różnicę między Hadoop 2 i Hadoop 3 na podstawie różnych funkcji.

Różnica między Hadoop 2.x a Hadoop 3.x

Apache Hadoop to platforma oprogramowania typu open source do rozproszonego przechowywania i przetwarzania ogromnej ilości zestawów danych.

Hadoop 3.x został wprowadzony w celu przezwyciężenia ograniczenia Hadoop 2.x. Hadoop 3.x dodał kilka nowych funkcji, chociaż stare funkcje są nadal używane.

Szczegółowe porównanie funkcji między Hadoop 2.x a Hadoop 3.x podano poniżej:

a. Licencja

Hadoop 2 .x- Apache 2.0, open source
Hadoop 3 .x- Apache 2.0, open source

b. Minimalna obsługiwana wersja Java

Hadoop 2 .x- Java 7.
Hadoop 3 .x- Java 8.

c. Tolerancja błędów

Hadoop 2.x- W tej wersji replikacja obsługuje odporność na błędy.
Hadoop 3.x- W tej wersji usuń tolerancję błędów uchwytu kodowania.

d. Równoważenie danych

Hadoop 2.x- Używa HDFS Balancer do równoważenia danych
Hadoop 3.x- Używa równoważenia węzłów wewnątrz danych, które jest wywoływane przez interfejs wiersza polecenia równoważenia dysku HDFS.

e. Schemat przechowywania

Hadoop 2.x- Używa schematu replikacji 3X.
Hadoop 3.x- Używa kodowania Erasure.

f. Narzut na przechowywanie

Hadoop 2.x- W tej wersji HDFS ma 200% narzutu w przestrzeni dyskowej.
Hadoop 3.x- W tej wersji HDFS ma 50% narzutu w przestrzeni dyskowej.

g. Przykład narzutu pamięci masowej

Hadoop 2.x- Jeśli jest 6 bloków i 3x replikacja każdego bloku, to daje 18 bloków. Zajmie 18 bloków przestrzeni.
Hadoop 3.x- Jeśli jest 6 bloków, zajmie 9 bloków miejsca, tj. 6 bloków i 3 dla parzystości.

godz. Usługa osi czasu YARN

Hadoop 2.x- Używa starej usługi osi czasu, która ma problemy ze skalowalnością.
Hadoop 3.x- Ta wersja ulepsza usługę osi czasu v2. Poprawia również skalowalność i niezawodność usługi osi czasu.

j. Domyślny zakres portów

Hadoop 2.x- W tej wersji domyślnymi portami są efemeryczne porty Linuksa. Dlatego w momencie uruchamiania nie będą się one wiązać.
Hadoop 3.x- Podczas gdy ta wersja została przeniesiona poza efemeryczny zasięg.

k. Narzędzia

Hadoop 2.x- Dostępne są również narzędzia Hive, pig, Tez, Hama i inne Hadoop.
Hadoop 3.x- W tej wersji dostępne są również narzędzia Hive, pig, Tez, Hama i inne Hadoop.

l. Zgodny system plików

Hadoop 2.x- Obsługuje HDFS (domyślny FS), system plików FTP:przechowuje również wszystkie swoje dane na zdalnie dostępnych serwerach FTP. Obsługuje również system plików Amazon S3 (Simple Storage Service) system plików Windows Azure Storage Blobs (WASB).
Hadoop 3.x- Obsługuje wszystkie poprzednie, a także system plików Microsoft Azure Data Lake.

m. Zasoby Datanode

Hadoop 2.x- Zasób MapReduce Datanode nie jest dedykowany. Możemy go również użyć do innych zastosowań.
Hadoop 3.x- W tej wersji również zasoby węzła danych mogą być używane również w innych aplikacjach.

rzecz. Zgodność z interfejsem API MR

Hadoop 2.x- MR API kompatybilne z programem Hadoop 1.x do wykonania na Hadoop 2.X
Hadoop 3.x- MR API jest również kompatybilny z uruchamianiem programów Hadoop 1.x do wykonania na Hadoop 3.X

o. Wsparcie dla Microsoft

Hadoop 2.x- Może być wdrożony w systemie Windows.
Hadoop 3.x- Obsługuje również okna Microsoft.

str. Gniazda/pojemnik

Hadoop 2.x- Hadoop 1.x pracuje nad koncepcją slotów, podczas gdy Hadoop 2.X pracuje nad koncepcją kontenera.
Hadoop 3.x- Hadoop 3.x działa również na koncepcji kontenera.

q. Pojedynczy punkt awarii

Hadoop 2.x- Posiada cechy pozwalające pokonać SPOF. Tak więc za każdym razem, gdy NameNode ulegnie awarii, przywraca się automatycznie.
Hadoop 3.x- Posiada również cechy umożliwiające pokonanie SPOF. Tak więc za każdym razem, gdy NameNode ulegnie awarii, automatycznie odzyskuje się bez potrzeby ręcznej interwencji.

r. Federacja HDFS

Hadoop 2.x- W Hadoop 1.x tylko jeden NameNode do zarządzania całą przestrzenią nazw. Ale Hadoop 2.x ma wiele nazw NameNode dla wielu przestrzeni nazw.
Hadoop 3.x- Ma również wiele nazw Namenode dla wielu przestrzeni nazw.

s. Skalowalność

Hadoop 2.x- Możemy skalować do 10000 węzłów na klaster.
Hadoop 3.x- Możemy skalować ponad 10000 węzłów na klaster.

t. Migawka HDFS

Hadoop 2.x- Dodaje obsługę migawki. Zapewnia również odzyskiwanie po awarii i ochronę przed błędami użytkownika.
Hadoop 3.x- Obsługuje również funkcję migawki.

u. Platforma

Hadoop 2.x- Służy jako platforma do szerokiej gamy analiz danych. Możliwe jest również uruchamianie przetwarzania zdarzeń, przesyłania strumieniowego i operacji w czasie rzeczywistym.
Hadoop 3.x- Możliwe jest również uruchomienie przetwarzania zdarzeń, przesyłania strumieniowego i operacji w czasie rzeczywistym na górze YARN.

Wniosek

Podsumowując, Hadoop 3.0 dodał nowe funkcje, takie jak kodowanie wymazywania, aby poradzić sobie z odpornością na błędy. Hadoop 3.x zmniejsza również obciążenie pamięci masowej o 200% do 50%.

Wprowadzono również nowe narzędzie wiersza poleceń o nazwie Disk balancer. Dlatego Hadoop 3.x poprawił ogólną wydajność.

Jeśli znajdziesz jakąkolwiek inną różnicę między Hadoop 2.x a Hadoop 3.x, daj nam znać w sekcji komentarzy.