Daj się zapalić dzięki Apache Spark

Dziękuję za Twój czas; Zdecydowanie staram się docenić twoje. W części 1 – omówiliśmy biblioteki Apache Spark, składniki Spark, takie jak Driver, DAG Scheduler, Task Scheduler i Worker. Teraz w części 2 omówimy podstawy pojęć Sparka, takie jak odporne rozproszone zestawy danych, współdzielone zmienne, SparkContext, transformacje, działanie i zalety używania Sparka wraz z przykładami i kiedy używać Sparka.

RDD — Odporne rozproszone zestawy danych

Są to kolekcje elementów możliwych do serializacji i taka kolekcja może być podzielona na partycje, w którym to przypadku jest przechowywana w wielu węzłach.

Może znajdować się w pamięci lub na dysku.

Spark używa RDD do redukcji I/O i utrzymywania przetworzonych danych w pamięci

RDD pomaga tolerować awarie węzłów i nie wymaga ponownego uruchamiania całego procesu ani obliczeń

Zazwyczaj jest tworzony z formatu wejściowego Hadoop lub z transformacji zastosowanej na istniejących RDD.

RDD przechowują swój rodowód danych; jeśli dane zostaną utracone, Spark odtworzy rodowód, aby odbudować utracone RDD.

RDD są niezmienne.

Udostępnione zmienne

Spark ma dwa typy zmiennych, które umożliwiają udostępnianie informacji między węzłami wykonawczymi.

Dwie zmienne to zmienne rozgłoszeniowe i akumulacyjne.

Wszystkie zmienne rozgłoszeniowe są wysyłane do zdalnych węzłów wykonawczych, podobnie jak obiekty konfiguracyjne MapReduce.

Wszystkie akumulatory są również wysyłane do zdalnych węzłów wykonawczych, z ograniczeniem, że możemy dodawać tylko do zmiennych akumulatorów, podobnie jak liczniki MapReduce.

Kontekst iskry

Jest to obiekt, który reprezentuje połączenie z klastrem Spark.

Służy do tworzenia RDD, transmisji danych i inicjowania akumulatorów.

Przemiany

Są to funkcje, które pobierają jeden RDD i zwracają inny.

Transformacje nigdy nie zmodyfikują swoich danych wejściowych, zwrócą tylko zmodyfikowany RDD.

Zawsze jest leniwy, więc nie obliczają swoich wyników. Zamiast wywoływać funkcję transformacji, tworzy tylko nowy RDD.

Cały zestaw powyższych przekształceń jest wykonywany po wywołaniu akcji.

W Spark jest wiele przekształceń – map(), filter(), KeyBy(), Join(), groupByKey(), sort().

Działanie

Akcje to metody, które pobierają RDD i wykonują obliczenia oraz zwracają wynik do aplikacji sterownika.

Akcja wyzwala obliczenie przekształceń, a rezultatem może być kolekcja, wartości na ekranie, wartości zapisane do pliku.

Akcja nigdy nie zwróci RDD.

Korzyści

Prostota
Wszechstronność
Zredukowane we/wy dysku
Przechowywanie
Wielojęzyczny
Niezależność menedżera zasobów
Powłoka interaktywna (REPL)

Spark, podobnie jak inne narzędzia Big Data, jest potężny, wydajny i dobrze nadaje się do radzenia sobie z szeregiem wyzwań związanych z analizą i Big Data.

Ten artykuł pierwotnie pojawił się tutaj. Opublikowane ponownie za zgodą. Tutaj możesz przesłać swoje skargi dotyczące praw autorskich.