Database
 sql >> Baza danych >  >> RDS >> Database

Daj się zapalić dzięki Apache Spark – część 2

Dziękuję za Twój czas; Zdecydowanie staram się docenić twoje. W części 1 – omówiliśmy biblioteki Apache Spark, składniki Spark, takie jak Driver, DAG Scheduler, Task Scheduler i Worker. Teraz w części 2 omówimy podstawy pojęć Sparka, takie jak odporne rozproszone zestawy danych, współdzielone zmienne, SparkContext, transformacje, działanie i zalety używania Sparka wraz z przykładami i kiedy używać Sparka.

RDD — Odporne rozproszone zestawy danych

Są to kolekcje elementów możliwych do serializacji i taka kolekcja może być podzielona na partycje, w którym to przypadku jest przechowywana w wielu węzłach.

Może znajdować się w pamięci lub na dysku.

Spark używa RDD do redukcji I/O i utrzymywania przetworzonych danych w pamięci

RDD pomaga tolerować awarie węzłów i nie wymaga ponownego uruchamiania całego procesu ani obliczeń

Zazwyczaj jest tworzony z formatu wejściowego Hadoop lub z transformacji zastosowanej na istniejących RDD.

RDD przechowują swój rodowód danych; jeśli dane zostaną utracone, Spark odtworzy rodowód, aby odbudować utracone RDD.

RDD są niezmienne.

Udostępnione zmienne

Spark ma dwa typy zmiennych, które umożliwiają udostępnianie informacji między węzłami wykonawczymi.

Dwie zmienne to zmienne rozgłoszeniowe i akumulacyjne.

Wszystkie zmienne rozgłoszeniowe są wysyłane do zdalnych węzłów wykonawczych, podobnie jak obiekty konfiguracyjne MapReduce.

Wszystkie akumulatory są również wysyłane do zdalnych węzłów wykonawczych, z ograniczeniem, że możemy dodawać tylko do zmiennych akumulatorów, podobnie jak liczniki MapReduce.

Kontekst iskry

Jest to obiekt, który reprezentuje połączenie z klastrem Spark.

Służy do tworzenia RDD, transmisji danych i inicjowania akumulatorów.

Przemiany

Są to funkcje, które pobierają jeden RDD i zwracają inny.

Transformacje nigdy nie zmodyfikują swoich danych wejściowych, zwrócą tylko zmodyfikowany RDD.

Zawsze jest leniwy, więc nie obliczają swoich wyników. Zamiast wywoływać funkcję transformacji, tworzy tylko nowy RDD.

Cały zestaw powyższych przekształceń jest wykonywany po wywołaniu akcji.

W Spark jest wiele przekształceń – map(), filter(), KeyBy(), Join(), groupByKey(), sort().

 Działanie

Akcje to metody, które pobierają RDD i wykonują obliczenia oraz zwracają wynik do aplikacji sterownika.

Akcja wyzwala obliczenie przekształceń, a rezultatem może być kolekcja, wartości na ekranie, wartości zapisane do pliku.

Akcja nigdy nie zwróci RDD.

Korzyści

  • Prostota
  • Wszechstronność
  • Zredukowane we/wy dysku
  • Przechowywanie
  • Wielojęzyczny
  • Niezależność menedżera zasobów
  • Powłoka interaktywna (REPL)

Spark, podobnie jak inne narzędzia Big Data, jest potężny, wydajny i dobrze nadaje się do radzenia sobie z szeregiem wyzwań związanych z analizą i Big Data.

Ten artykuł pierwotnie pojawił się tutaj. Opublikowane ponownie za zgodą. Tutaj możesz przesłać swoje skargi dotyczące praw autorskich.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Podstawy wyrażeń tabelarycznych, część 1

  2. Jak zaktualizować kolumnę na podstawie filtra innej kolumny?

  3. Jak pracować z dziedziczeniem w Entity Framework Core

  4. SQL klucza obcego:wszystko, co musisz wiedzieć o operacjach na kluczach obcych

  5. Złe nawyki:Skupienie się tylko na miejscu na dysku podczas wybierania kluczy