Database
 sql >> Baza danych >  >> RDS >> Database

Dlaczego warto uczyć się Cassandry z Hadoop?

„Firmy zdają sobie sprawę, że mogą wydobywać cenne informacje biznesowe, aby usprawnić podejmowanie decyzji i uzyskać przewagę konkurencyjną. Narzędzia takie jak Hadoop i Cassandra umożliwiają to wszystko i dlatego umiejętności NoSQL na wszystkich poziomach są niezwykle pożądane”. – Analitycy TechRepublic

Opracowany jako wewnętrzny projekt na Facebooku, aby wzmocnić funkcję wyszukiwania w skrzynce odbiorczej, Cassandra to system zarządzania rozproszoną bazą danych typu open source . Został wydany jako projekt open source w Google Code w 2008 roku, a następnie stał się projektem najwyższego poziomu w fundacji Apache Software od 2010 roku.

Cassandra to kolejna WIELKA rzecz:

  • Apache Cassandra jest przeznaczony do obsługi ogromnej ilości danych (pod względem prędkości, objętości i różnorodności) na wielu serwerach towarowych, zapewniając wysoką dostępność i brak SPOF (pojedynczego punktu awarii).
  • Cassandra oferuje również potężne wsparcie dla klastrów obejmujących wiele centrów danych. Brak „struktury master-slave”, podobnie jak w przypadku tradycyjnych architektur, pozwala na zerowy wpływ na system w przypadku awarii konkretnego węzła.
  • Naukowcy z University of Toronto przeprowadzający badania nad systemami NoSQL stwierdzają, że pod względem skalowalności i maksymalnej przepustowości na węzeł , Cassandra wyłania się jako wyraźny zwycięzca. Głównym celem NoSQL DBMS jest zapewnienie Skalowalności , Wydajność i Wysoka dostępność. Podobnie jak większość SZBD NoSQL, Cassandra może obsługiwać zarówno dane strukturalne, jak i nieustrukturyzowane i radzi sobie znacznie dobrze z powyższymi parametrami.
  • Cassandra może służyć zarówno jako Datastore w czasie rzeczywistym („System ewidencji”) dla aplikacji online/transakcyjnych oraz jako baza danych intensywnie czytająca dla systemów Business Intelligence. Przeczytaj nasz wpis na blogu na temat różnych zalet oferowanych przez Cassandrę, aby uzyskać więcej informacji.

Dlaczego warto wybrać Hadoop z Cassandrą?

Mówiąc prościej, mieć:

  • Ujednolicone obciążenie
  • Dostępność
  • Prostsze wdrożenie

Jeśli chodzi o Hadoop, firmy nie są zainteresowane podstawową strukturą pamięci masowej Hadoop, ale jego opłacalnymi metodami analizy i przetwarzania ogromnych ilości danych. Możliwość podejmowania decyzji na podstawie wyników MapReduce, Hive, Pig, Mahout i innych operacji ma największe znaczenie dla tych organizacji.

Kluczowe punkty do zapamiętania:

  • Rozproszony system plików Hadoop (HDFS) jest jednym z wielu różnych komponentów i projektów zawartych w ekosystemie Hadoop. Projekt Apache Hadoop definiuje HDFS jako podstawowy system pamięci masowej używany przez aplikacje Hadoop .HDFS może przechowywać ogromne, rozproszone, nieustrukturyzowane zestawy danych. Dane mogą być przechowywane bezpośrednio w HDFS lub mogą być przechowywane w formacie częściowo ustrukturyzowanym w HBase, który umożliwia szybki dostęp do danych na poziomie rekordu i jest wzorowany na systemie BigTable firmy Google. Z drugiej strony Cassandra nie jest system relacyjny wykorzystujący model danych BigTable , ale wykorzystuje schemat Dynamo firmy Amazon do dystrybucji danych i klastrowania.
  • Hadoop robi wiele wspaniałych rzeczy, jego podstawowe możliwości MapReduce są bardzo silne. Eksperci branżowi uwielbiają Hive i jego projekt przypominający SQL. Jednak system plików HDFS jest niezwykle skomplikowany w konfiguracji, ma pojedyncze punkty awarii i – zgodnie z opiniami dużych firm po prostu nie jest gotowy na robienie tego, czego chcą . Z drugiej strony Cassandra zapewnia wszystkie możliwości niższego poziomu stosu Hadoop. Cassandra jednocześnie zapewnia również możliwości aplikacji w czasie rzeczywistym o niskim opóźnieniu w tej właśnie infrastrukturze.

Jak Cassandra i Hadoop mogą ze sobą współpracować?

Wielu dostawców oferuje alternatywy dla HDFS. Niedawny artykuł organizacji o nazwie GigaOM zawiera ogólny przegląd tego, jak system Apache Cassandra File System może zastąpić HDFS, z minimalne zmiany programistyczne wymagane z punktu widzenia rozwoju oraz jak wiele korzyści można w tym procesie osiągnąć. DataStax , wiodący komercyjny dostawca dystrybucji Cassandry połączył Cassandrę z Hadoop i nazwał ją Brisk. W przypadku Brisk HDFS zostaje zastąpiony przez Cassandra File System. Dowiedz się więcej o koncepcjach HDFS. Sprawdź ten kurs online Big Data , który został stworzony przez Top Industrial Working Experts.

Zaleta Cassandry – kombinacja Hadoop:

  • Można również zaimplementować Cassandrę z Hadoop w tym samym klastrze. Oznacza to, że możesz mieć to, co najlepsze z obu światów.
  • Tna podstawie czasu i czasu rzeczywistego działa pod aplikacjami Cassandry (czas rzeczywisty jest siłą Cassandry), podczas gdy analiza wsadowa i zapytania które nie wymagają sygnatury czasowej, mogą działać na platformie Hadoop. W tego rodzaju ekosystemie HDFS zastępuje Cassandra i jest to niewidoczne dla dewelopera. Można dynamicznie zmieniać przypisanie węzłów między środowiskami Cassandra i Hadoop, jeśli jest to właściwe.
  • Cassandra File System usuwa pojedyncze punkty awarii które są powiązane z HDFS, a mianowicie punkty awarii NameNode i Job Tracker, które są powiązane z HDFS.

Pomysł polega zatem na połączeniu Cassandry, która jest pionierem w przetwarzaniu dużych transakcji w czasie rzeczywistym , z Hadoop która wyróżnia się bardziej zorientowanymi wsadowo rozwiązaniami analitycznymi .

Cassandra i Biggies:

Wiele organizacji z różnych branż korzysta z Cassandry, aby osiągnąć różne cele biznesowe. Niektóre z nich to:

  • Netflix – Używa Cassandry jako wewnętrznej bazy danych dla swoich usług przesyłania strumieniowego.
  • WebEx firmy Cisco – Używa Cassandry do przechowywania danych użytkowników i aktywności w czasie zbliżonym do rzeczywistego.
  • SoundCloud – Używa Cassandry do przechowywania pulpitu nawigacyjnego swoich użytkowników.
  • IBM – Przeprowadził badania w zakresie budowy skalowalnego systemu poczty e-mail opartego na Cassandrze

Tytuły stanowisk obejmujące umiejętności Hadoop i Cassandra:

Badanie przeprowadzone przez Simplyhired pokazuje, że miejsca pracy Cassandry cieszą się dużym zainteresowaniem ze względu na wysoki wskaźnik rozpowszechnienia w branży, zwłaszcza w ciągu ostatnich kilku lat. A przyszłość wygląda bardzo obiecująco.

Przyjrzyjmy się niektórym tytułom stanowisk związanych z umiejętnościami Hadoop-Cassandra i ich pensjami wymienionymi na Indeed.com:

  • Architekt danych: Ta pozycja zapewnia średnią pensję w wysokości 107 000 USD. Architekci danych muszą mieć pewne doświadczenie w tworzeniu modeli danych, magazynowaniu danych, analizowaniu danych i migracji danych
  • Naukowiec ds. danych: Gromadzą dane, analizują je, przedstawiają wizualnie i wykorzystują dane do tworzenia prognoz/prognoz. Średnia pensja analityka danych wynosi 104 000 USD
  • Inżynier systemowy: Średnia pensja inżynierów systemów wynosi 89 000 USD.
  • DBA: DBA zarabia średnio ponad 100 000 USD.
  • Programista aplikacji: Deweloperzy oprogramowania zarabiają średnio 107 000 USD, a programiści aplikacji 93 000 USD. Osoby z tymi umiejętnościami mogą uzyskać wystarczającą pracę jako freelancer lub mogą założyć własny startup, jeśli mają ducha przedsiębiorczości.

Powiązane posty:

Wybór właściwej bazy danych NoSQL.

Jak otworzyć CQLSH Cassandry zainstalowanej w systemie Windows?


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Salesforce SOQL z Javy

  2. UNION ALL Optymalizacja

  3. Łączenie SAS JMP z Salesforce.com

  4. Model bazy danych dla ankiety online. Część 3

  5. Łączenie się z 4D z Javy