Ten wpis na blogu jest częścią serii dotyczącej operacyjnej bazy danych Cloudera (OpDB) w CDP. Każdy post zawiera więcej szczegółów na temat nowych funkcji i możliwości. Zacznij od początku serii od Operacyjnej Bazy Danych w CDP.
OpDB firmy Cloudera zapewnia bogaty zestaw możliwości przechowywania i uzyskiwania dostępu do danych. W tym poście na blogu przyjrzymy się możliwościom ułatwień dostępu OpDB i sposobom ich wykorzystania w celu uzyskania dostępu do danych.
Dystrybucja i sharding
Operacyjna baza danych (OpDB) firmy Cloudera to skalowalny system zarządzania bazą danych (DBMS), który został zaprojektowany do liniowego skalowania do petabajtów danych. Podobnie jak wszystkie DBMS, skalowanie w poziomie jest realizowane poprzez sharding. Obsługiwane są dwie różne zasady shardingu:
- Auto-sharding
- Wstępnie zdefiniowane fragmentowanie
Niezależnie od podejścia istnieją interfejsy API umożliwiające sharding w oparciu o hash, zakres wartości i kombinację obu.
Automatyczne dzielenie
Gdy włączone jest automatyczne dzielenie na fragmenty, tabele są dynamicznie rozmieszczane w klastrze, a gdy rozmiar fragmentu przekracza konfigurowalny limit, jest on automatycznie dzielony i przenoszony między serwerami w klastrze.
Segment stołu jest podzielony na dwie części w środkowym klawiszu, tworząc dwie mniej więcej równe połowy, a te dwie połowy mogą być obsługiwane przez różne serwery.
Zautomatyzowane sharding jest stosowane niezależnie od sieci używanej z OpDB (WAN lub lokalnie). Klastry można skonfigurować tak, aby obejmowały sieć WAN, w którym to przypadku fragmentacja i przenoszenie danych będą miały miejsce w sieci WAN z zerową utratą danych.
System można skonfigurować tak, aby był świadomy, które węzły znajdują się w których centrach danych, co zapewnia dodatkową odporność fragmentów, ponieważ kopie fragmentów mogą być dystrybuowane w wielu centrach danych.
Wstępnie zdefiniowane fragmentowanie
Fragmenty mogą być ograniczone do określonych podzbiorów węzłów w klastrze na podstawie zasad, zwykle w sposób specyficzny dla dzierżawy. Pozwala to na realizację polityk opartych na geograficznych obszarach. Następnie tabele można replikować między klastrami i ustawiać zgodnie z zasadami, aby zapewnić, że replikacja tabel i powiązanych fragmentów jest ograniczona do żądanych obszarów geograficznych.
OpDB Cloudera zapewnia natywne wsparcie dla suwerenności danych. Jeśli klaster obejmuje wiele krajów, regionalne grupy serwerów mogą być używane do zakotwiczania danych w określonych krajach wraz z konfiguracją izolacji szafy HDFS.
Zapytania
Cloudera zapewnia trzy silniki zapytań zoptymalizowane pod kątem różnych typów przypadków użycia, zarówno operacyjnych, jak i analitycznych, oraz interfejsów NoSQL, aby umożliwić zoptymalizowaną wydajność w szerokim zakresie obciążeń operacyjnych i hurtowni danych. Umożliwia to wykonywanie zapytań i łączeń danych w wielu fragmentach.
OpDB Cloudera zapewnia natywny silnik OLTP SQL, który obsługuje zapytania do wielu modeli danych i obiektów, w tym zapytania i łączenie między nimi. Dwa z naszych silników zapytań OLAP mogą być używane do mapowania zewnętrznych tabel, które znajdują się w naszej bazie danych OpDB (lub w innych lokalizacjach) i mogą wysyłać zapytania lub łączyć się między nimi w celu uzyskania bardziej złożonych zapytań analitycznych typowych dla hurtowni danych
Narzędzia integracji danych
Cloudera udostępnia wiele narzędzi umożliwiających integrację z hurtownią danych i sfederowanym przetwarzaniem zapytań.
Na przykład:
- Eksport zbiorczy do hurtowni danych zapewniają Flink, Spark, Hive i MapReduce
- Eksport strumieniowy do hurtowni danych zapewnia Nifi
- Kwerendy do danych in situ w naszej bazie danych OpDB są dostarczane przez firmy Phoenix, Impala i Hive
- Federowane przetwarzanie zapytań w ramach naszej OpDB, rozwiązania hurtowni danych i rozwiązań hurtowni danych innych firm zapewnia Hive
Obsługa danych zewnętrznych
OpDB Cloudera zawiera wiele narzędzi Hadoop i integruje się z większością ekosystemu Hadoop.
Nasza OpDB zapewnia interfejsy NoSQL i SQL. Nie ma żadnych ograniczeń dotyczących tego interfejsu i jest on bardzo dobrze obsługiwany w społeczności Hadoop.
Mobilna baza danych
MiNiFi może być używany na urządzeniach przenośnych na brzegu i zapewnia łączność danych z OpDB.
Edytor zapytań HUE może działać na urządzeniu mobilnym lub przenośnym.
Łączność oparta na standardach
Cloudera zapewnia zarówno sterowniki JDBC, jak i ODBC dostarczane za pośrednictwem naszych silników SQL, oprócz bezpośredniego dostępu API do naszych magazynów danych i narzędzi.
Dalej
W tym poście na blogu przyjrzeliśmy się niektórym możliwościom ułatwień dostępu OpDB, takim jak zapytania o dane, integracja danych i łączność. W następnym artykule omówimy, jak wykorzystać możliwości administracyjne w OpDB, znajdziesz je tutaj.
Aby uzyskać więcej informacji, przejdź do:Pierwsze kroki z operacyjną bazą danych.