HBase
 sql >> Baza danych >  >> NoSQL >> HBase

Dostępność operacyjnej bazy danych

Ten wpis na blogu jest częścią serii dotyczącej operacyjnej bazy danych Cloudera (OpDB) w CDP. Każdy post zawiera więcej szczegółów na temat nowych funkcji i możliwości. Zacznij od początku serii od Operacyjnej Bazy Danych w CDP.

OpDB firmy Cloudera zapewnia bogaty zestaw możliwości przechowywania i uzyskiwania dostępu do danych. W tym poście na blogu przyjrzymy się możliwościom ułatwień dostępu OpDB i sposobom ich wykorzystania w celu uzyskania dostępu do danych.

Dystrybucja i sharding

Operacyjna baza danych (OpDB) firmy Cloudera to skalowalny system zarządzania bazą danych (DBMS), który został zaprojektowany do liniowego skalowania do petabajtów danych. Podobnie jak wszystkie DBMS, skalowanie w poziomie jest realizowane poprzez sharding. Obsługiwane są dwie różne zasady shardingu:

  • Auto-sharding
  • Wstępnie zdefiniowane fragmentowanie

Niezależnie od podejścia istnieją interfejsy API umożliwiające sharding w oparciu o hash, zakres wartości i kombinację obu.

Automatyczne dzielenie

Gdy włączone jest automatyczne dzielenie na fragmenty, tabele są dynamicznie rozmieszczane w klastrze, a gdy rozmiar fragmentu przekracza konfigurowalny limit, jest on automatycznie dzielony i przenoszony między serwerami w klastrze.

Segment stołu jest podzielony na dwie części w środkowym klawiszu, tworząc dwie mniej więcej równe połowy, a te dwie połowy mogą być obsługiwane przez różne serwery.

Zautomatyzowane sharding jest stosowane niezależnie od sieci używanej z OpDB (WAN lub lokalnie). Klastry można skonfigurować tak, aby obejmowały sieć WAN, w którym to przypadku fragmentacja i przenoszenie danych będą miały miejsce w sieci WAN z zerową utratą danych.

System można skonfigurować tak, aby był świadomy, które węzły znajdują się w których centrach danych, co zapewnia dodatkową odporność fragmentów, ponieważ kopie fragmentów mogą być dystrybuowane w wielu centrach danych.

Wstępnie zdefiniowane fragmentowanie

Fragmenty mogą być ograniczone do określonych podzbiorów węzłów w klastrze na podstawie zasad, zwykle w sposób specyficzny dla dzierżawy. Pozwala to na realizację polityk opartych na geograficznych obszarach. Następnie tabele można replikować między klastrami i ustawiać zgodnie z zasadami, aby zapewnić, że replikacja tabel i powiązanych fragmentów jest ograniczona do żądanych obszarów geograficznych.

OpDB Cloudera zapewnia natywne wsparcie dla suwerenności danych. Jeśli klaster obejmuje wiele krajów, regionalne grupy serwerów mogą być używane do zakotwiczania danych w określonych krajach wraz z konfiguracją izolacji szafy HDFS.

Zapytania

Cloudera zapewnia trzy silniki zapytań zoptymalizowane pod kątem różnych typów przypadków użycia, zarówno operacyjnych, jak i analitycznych, oraz interfejsów NoSQL, aby umożliwić zoptymalizowaną wydajność w szerokim zakresie obciążeń operacyjnych i hurtowni danych. Umożliwia to wykonywanie zapytań i łączeń danych w wielu fragmentach.

OpDB Cloudera zapewnia natywny silnik OLTP SQL, który obsługuje zapytania do wielu modeli danych i obiektów, w tym zapytania i łączenie między nimi. Dwa z naszych silników zapytań OLAP mogą być używane do mapowania zewnętrznych tabel, które znajdują się w naszej bazie danych OpDB (lub w innych lokalizacjach) i mogą wysyłać zapytania lub łączyć się między nimi w celu uzyskania bardziej złożonych zapytań analitycznych typowych dla hurtowni danych

Narzędzia integracji danych

Cloudera udostępnia wiele narzędzi umożliwiających integrację z hurtownią danych i sfederowanym przetwarzaniem zapytań.

Na przykład:

  • Eksport zbiorczy do hurtowni danych zapewniają Flink, Spark, Hive i MapReduce
  • Eksport strumieniowy do hurtowni danych zapewnia Nifi
  • Kwerendy do danych in situ w naszej bazie danych OpDB są dostarczane przez firmy Phoenix, Impala i Hive 
  • Federowane przetwarzanie zapytań w ramach naszej OpDB, rozwiązania hurtowni danych i rozwiązań hurtowni danych innych firm zapewnia Hive

Obsługa danych zewnętrznych

OpDB Cloudera zawiera wiele narzędzi Hadoop i integruje się z większością ekosystemu Hadoop.

Nasza OpDB zapewnia interfejsy NoSQL i SQL. Nie ma żadnych ograniczeń dotyczących tego interfejsu i jest on bardzo dobrze obsługiwany w społeczności Hadoop.

Mobilna baza danych

MiNiFi może być używany na urządzeniach przenośnych na brzegu i zapewnia łączność danych z OpDB.

Edytor zapytań HUE może działać na urządzeniu mobilnym lub przenośnym.

Łączność oparta na standardach

Cloudera zapewnia zarówno sterowniki JDBC, jak i ODBC dostarczane za pośrednictwem naszych silników SQL, oprócz bezpośredniego dostępu API do naszych magazynów danych i narzędzi.

Dalej

W tym poście na blogu przyjrzeliśmy się niektórym możliwościom ułatwień dostępu OpDB, takim jak zapytania o dane, integracja danych i łączność. W następnym artykule omówimy, jak wykorzystać możliwości administracyjne w OpDB, znajdziesz je tutaj.

Aby uzyskać więcej informacji, przejdź do:Pierwsze kroki z operacyjną bazą danych.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Spark-on-HBase:złącze HBase oparte na DataFrame

  2. Porównanie Apache HBase z Apache Cassandra na SSD w środowisku chmury

  3. Tworzenie aplikacji do uczenia maszynowego za pomocą środowiska pracy i operacyjnej bazy danych Cloudera Data Science, część 1:Konfiguracja i podstawy

  4. Następny przystanek — budowanie potoku danych od Edge do Insight

  5. Egzekucja spekulacyjna w Hadoop MapReduce