Cel tego samouczka Hadoop jest zapewnienie lepszego zrozumienia między różnymi wersjami Hadoop. W tym blogu omówiliśmy 20 najważniejszych różnic między Hadoop 2.x a Hadoop 3.x.
Ten blog opisuje różnicę między Hadoop 2 i Hadoop 3 na podstawie różnych funkcji.
Różnica między Hadoop 2.x a Hadoop 3.x
Apache Hadoop to platforma oprogramowania typu open source do rozproszonego przechowywania i przetwarzania ogromnej ilości zestawów danych.
Hadoop 3.x został wprowadzony w celu przezwyciężenia ograniczenia Hadoop 2.x. Hadoop 3.x dodał kilka nowych funkcji, chociaż stare funkcje są nadal używane.
Szczegółowe porównanie funkcji między Hadoop 2.x a Hadoop 3.x podano poniżej:
a. Licencja
- Hadoop 2 .x- Apache 2.0, open source
- Hadoop 3 .x- Apache 2.0, open source
b. Minimalna obsługiwana wersja Java
- Hadoop 2 .x- Java 7.
- Hadoop 3 .x- Java 8.
c. Tolerancja błędów
- Hadoop 2.x- W tej wersji replikacja obsługuje odporność na błędy.
- Hadoop 3.x- W tej wersji usuń tolerancję błędów uchwytu kodowania.
d. Równoważenie danych
- Hadoop 2.x- Używa HDFS Balancer do równoważenia danych
- Hadoop 3.x- Używa równoważenia węzłów wewnątrz danych, które jest wywoływane przez interfejs wiersza polecenia równoważenia dysku HDFS.
e. Schemat przechowywania
- Hadoop 2.x- Używa schematu replikacji 3X.
- Hadoop 3.x- Używa kodowania Erasure.
f. Narzut na przechowywanie
- Hadoop 2.x- W tej wersji HDFS ma 200% narzutu w przestrzeni dyskowej.
- Hadoop 3.x- W tej wersji HDFS ma 50% narzutu w przestrzeni dyskowej.
g. Przykład narzutu pamięci masowej
- Hadoop 2.x- Jeśli jest 6 bloków i 3x replikacja każdego bloku, to daje 18 bloków. Zajmie 18 bloków przestrzeni.
- Hadoop 3.x- Jeśli jest 6 bloków, zajmie 9 bloków miejsca, tj. 6 bloków i 3 dla parzystości.
godz. Usługa osi czasu YARN
- Hadoop 2.x- Używa starej usługi osi czasu, która ma problemy ze skalowalnością.
- Hadoop 3.x- Ta wersja ulepsza usługę osi czasu v2. Poprawia również skalowalność i niezawodność usługi osi czasu.
j. Domyślny zakres portów
- Hadoop 2.x- W tej wersji domyślnymi portami są efemeryczne porty Linuksa. Dlatego w momencie uruchamiania nie będą się one wiązać.
- Hadoop 3.x- Podczas gdy ta wersja została przeniesiona poza efemeryczny zasięg.
k. Narzędzia
- Hadoop 2.x- Dostępne są również narzędzia Hive, pig, Tez, Hama i inne Hadoop.
- Hadoop 3.x- W tej wersji dostępne są również narzędzia Hive, pig, Tez, Hama i inne Hadoop.
l. Zgodny system plików
- Hadoop 2.x- Obsługuje HDFS (domyślny FS), system plików FTP:przechowuje również wszystkie swoje dane na zdalnie dostępnych serwerach FTP. Obsługuje również system plików Amazon S3 (Simple Storage Service) system plików Windows Azure Storage Blobs (WASB).
- Hadoop 3.x- Obsługuje wszystkie poprzednie, a także system plików Microsoft Azure Data Lake.
m. Zasoby Datanode
- Hadoop 2.x- Zasób MapReduce Datanode nie jest dedykowany. Możemy go również użyć do innych zastosowań.
- Hadoop 3.x- W tej wersji również zasoby węzła danych mogą być używane również w innych aplikacjach.
rzecz. Zgodność z interfejsem API MR
- Hadoop 2.x- MR API kompatybilne z programem Hadoop 1.x do wykonania na Hadoop 2.X
- Hadoop 3.x- MR API jest również kompatybilny z uruchamianiem programów Hadoop 1.x do wykonania na Hadoop 3.X
o. Wsparcie dla Microsoft
- Hadoop 2.x- Może być wdrożony w systemie Windows.
- Hadoop 3.x- Obsługuje również okna Microsoft.
str. Gniazda/pojemnik
- Hadoop 2.x- Hadoop 1.x pracuje nad koncepcją slotów, podczas gdy Hadoop 2.X pracuje nad koncepcją kontenera.
- Hadoop 3.x- Hadoop 3.x działa również na koncepcji kontenera.
q. Pojedynczy punkt awarii
- Hadoop 2.x- Posiada cechy pozwalające pokonać SPOF. Tak więc za każdym razem, gdy NameNode ulegnie awarii, przywraca się automatycznie.
- Hadoop 3.x- Posiada również cechy umożliwiające pokonanie SPOF. Tak więc za każdym razem, gdy NameNode ulegnie awarii, automatycznie odzyskuje się bez potrzeby ręcznej interwencji.
r. Federacja HDFS
- Hadoop 2.x- W Hadoop 1.x tylko jeden NameNode do zarządzania całą przestrzenią nazw. Ale Hadoop 2.x ma wiele nazw NameNode dla wielu przestrzeni nazw.
- Hadoop 3.x- Ma również wiele nazw Namenode dla wielu przestrzeni nazw.
s. Skalowalność
- Hadoop 2.x- Możemy skalować do 10000 węzłów na klaster.
- Hadoop 3.x- Możemy skalować ponad 10000 węzłów na klaster.
t. Migawka HDFS
- Hadoop 2.x- Dodaje obsługę migawki. Zapewnia również odzyskiwanie po awarii i ochronę przed błędami użytkownika.
- Hadoop 3.x- Obsługuje również funkcję migawki.
u. Platforma
- Hadoop 2.x- Służy jako platforma do szerokiej gamy analiz danych. Możliwe jest również uruchamianie przetwarzania zdarzeń, przesyłania strumieniowego i operacji w czasie rzeczywistym.
- Hadoop 3.x- Możliwe jest również uruchomienie przetwarzania zdarzeń, przesyłania strumieniowego i operacji w czasie rzeczywistym na górze YARN.
Wniosek
Podsumowując, Hadoop 3.0 dodał nowe funkcje, takie jak kodowanie wymazywania, aby poradzić sobie z odpornością na błędy. Hadoop 3.x zmniejsza również obciążenie pamięci masowej o 200% do 50%.
Wprowadzono również nowe narzędzie wiersza poleceń o nazwie Disk balancer. Dlatego Hadoop 3.x poprawił ogólną wydajność.
Jeśli znajdziesz jakąkolwiek inną różnicę między Hadoop 2.x a Hadoop 3.x, daj nam znać w sekcji komentarzy.