HBase
 sql >> Baza danych >  >> NoSQL >> HBase

Pierwsze kroki z operacyjną bazą danych Cloudera Data Platform (COD)

Koncepcje

Co to jest operacyjna baza danych Cloudera (COD)?

Operacyjna baza danych to relacyjna i nierelacyjna baza danych zbudowana na Apache HBase i przeznaczona do obsługi aplikacji OLTP, które wykorzystują duże zbiory danych.

Operacyjna baza danych w Cloudera Data Platform składa się z następujących komponentów:

  • Apache Phoenix zapewnia relacyjny model ułatwiający ogromną skalowalność. Wykorzystuje skalowalność i odporność Apache HBase.
  • Apache HBase zapewnia nierelacyjny model zaprojektowany z myślą o ogromnej skalowalności, dzięki czemu możesz przechowywać nieograniczone ilości danych na jednej platformie i obsługiwać rosnące wymagania dotyczące obsługi danych.
  • Apache ZooKeeper zapewnia usługę konfiguracji rozproszonej, usługę synchronizacji i rejestr nazw.
  • Apache Knox Gateway zapewnia bezpieczeństwo obwodowe, dzięki czemu przedsiębiorstwo może bez obaw rozszerzyć dostęp na nowych użytkowników.
  • Apache HDFS jest używany do pisania Apache HBase WAL (i HBase HFiles w niektórych przypadkach).
  • Sklepy obiektów, takie jak Amazon S3 i Microsoft ADLS Gen2 są używane do przechowywania Apache HBase HFiles.
  • Shared Data Experience (SDX) jest używany do funkcji bezpieczeństwa i zarządzania. Zasady bezpieczeństwa i zarządzania są ustalane raz i stosowane do wszystkich danych i obciążeń. Podobnie jak sam CDP, SDX jest oparty na projektach społecznościowych open source, z Apache Ranger i Apache Atlas na pierwszym miejscu.

Atlas zapewnia otwarte zarządzanie metadanymi i możliwości zarządzania, aby zbudować katalog wszystkich zasobów, a także klasyfikować i zarządzać tymi zasobami. Warstwa SDX CDP wykorzystuje pełne spektrum Atlas do automatycznego śledzenia i kontrolowania wszystkich zasobów danych.

Ranger zapewnia zarządzanie kluczami bezpieczeństwa, z osobnym loginem dla administratorów kluczy korzystających z usługi Ranger KMS. Apache Ranger zapewnia również bardzo potrzebne funkcje bezpieczeństwa, takie jak maskowanie kolumn i filtrowanie wierszy. Innym ważnym czynnikiem jest to, że zasady dostępu w Ranger można dostosować za pomocą dynamicznego kontekstu przy użyciu różnych atrybutów, takich jak „region geograficzny” lub „pora dnia”.

  • IDBroker to REST API zbudowany w ramach usług uwierzytelniania Apache Knox. Umożliwia uwierzytelnionemu i autoryzowanemu użytkownikowi wymianę zestawu danych uwierzytelniających lub tokena na tokeny dostępu dostawcy chmury.

Usługa danych operacyjnych CDP

Operacyjna baza danych CDP (COD) to działająca w czasie rzeczywistym, automatycznie skalująca się operacyjna baza danych obsługiwana przez Apache HBase i Apache Phoenix. Jest to usługa danych działająca na platformie Cloudera Data Platform (CDP). Możesz uzyskać dostęp do COD bezpośrednio z konsoli CDP. COD umożliwia tworzenie nowej operacyjnej bazy danych za pomocą jednego kliknięcia i automatyczne skalowanie w oparciu o obciążenie pracą.

Poniżej przedstawiono kluczowe kroki, aby rozpocząć korzystanie z COD:

  • Utwórz bazę danych w środowisku za pomocą jednego kliknięcia, a baza danych powinna być gotowa i dostępna w ciągu kilku minut.
  • Skonfiguruj hasło obciążenia. Aby uzyskać więcej informacji, kliknij tutaj.
  • Pobierz i zainstaluj Apache Maven, Java, Python 3.8.
  • Zainstaluj klienta CDP na swoim komputerze. Aby uzyskać więcej informacji, kliknij tutaj.
  • Postępuj zgodnie z instrukcjami w repozytorium przykładów, aby wprowadzić zmiany w swoim maven settings-security.xml, settings.xml i pom.xml.
  • Tworzenie i uruchamianie aplikacji.

Apache HBase

HBase to architektura przechowywania danych zorientowana na kolumny, która jest tworzona na bazie HDFS w celu przezwyciężenia jej ograniczeń. Wykorzystuje podstawowe funkcje HDFS i opiera się na nim, aby zapewnić skalowalność, obsługując dużą liczbę żądań odczytu i zapisu w czasie rzeczywistym. Chociaż architektura HBase jest bazą danych NoSQL, ułatwia proces utrzymywania danych poprzez równomierne ich dystrybuowanie w klastrze. Dzięki temu dostęp do danych w modelu danych HBase i ich modyfikowanie są szybkie. Dowiedz się więcej o Apache HBase.

Apache Phoenix

Apache Phoenix to interfejs RDBMS i ANSI SQL. Apache Phoenix wdraża optymalizacje oparte na najlepszych praktykach, aby umożliwić inżynierom oprogramowania tworzenie aplikacji opartych na danych nowej generacji w oparciu o HBase. Używając Phoenix, możesz tworzyć i wchodzić w interakcje z tabelami w formie typowych instrukcji DDL/DML przy użyciu standardowego interfejsu API JDBC, ODBC i Phoenix DB API.

Phoenix zapewnia:

  • Obsługa API SQL i JDBC
  • Obsługa późnego wiązania, schemat przy odczycie
  • Dostęp do danych przechowywanych i wytwarzanych w innych komponentach, takich jak Apache Spark i Apache Hive

Dowiedz się więcej o Apache Phoenix.

Procedura

Jak stworzyć operacyjną bazę danych

Możesz utworzyć operacyjną bazę danych w zarejestrowanym środowisku za pomocą operacyjnej bazy danych CDP (COD).

Wymagania wstępne

  • Musisz być zalogowany w środowisku COD jako ODAdmin.
  • Upewnij się, że masz uprawnienia do tworzenia bazy danych.

Kroki

  1. Zaloguj się do interfejsu sieciowego CDP. Na przykład konsola CDP.
  2. Wybierz operacyjną bazę danych.
  3. W interfejsie internetowym COD kliknij Utwórz bazę danych.
  4. Wybierz środowisko z listy, w którym chcesz mieć bazę danych.
  5. Podaj nazwę bazy danych w polu Nazwa bazy danych.
  6. Kliknij Utwórz bazę danych.

Wynik

Wyświetlana jest strona informacyjna, która pokazuje stan bazy danych. Twoja nowa baza danych jest gotowa do użycia, gdy jej status stanie się dostępny.

Demo

Jak zarządzać połączeniem z bazą danych

Po utworzeniu operacyjnej bazy danych i jej udostępnieniu możesz zarządzać połączeniami z bazą danych.

Wymagania wstępne

  • Upewnij się, że baza danych jest aktywna i dostępna.
  • Masz uprawnienia do wprowadzania zmian w bazie danych.

Kroki

  1. W interfejsie internetowym COD wybierz bazę danych, dla której chcesz zarządzać połączeniami.
  2. W sekcji Połącz przejdź do każdej zakładki i zmodyfikuj parametry.

Referencje

  • Dokumentacja Cloudera dotycząca tworzenia bazy danych COD
  • Operacyjna baza danych w CDP 

Jeśli jesteś zainteresowany wypróbowaniem CDP Public Cloud i operacyjnej bazy danych, wypróbuj nasze Dysk testowy .


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Replikacja Apache HBase:przegląd operacyjny

  2. Co to jest InputSplit w Hadoop MapReduce?

  3. Używanie Hive do interakcji z HBase, część 1

  4. Następny przystanek — budowanie potoku danych od Edge do Insight

  5. 20 Znacząca różnica między Hadoop 2.x a Hadoop 3.x