Cloudera Data Platform (CDP) to najnowsza oferta Big Data firmy Cloudera. Obejmuje Apache HBase i Phoenix jako część platformy. Te dwa komponenty są dostarczane w 3 formach:
- W przypadku wdrożeń lokalnych są one dostępne w sposób podobny do CDH i HDP (w ramach oferty CDP Private Cloud)
- Dla klientów, którzy chcą samodzielnie zarządzać bazą danych w AWS i Azure, jest ona dostępna w ramach oferty CDP Public Cloud DataHub (z szablonem Operacyjna baza danych lub w niestandardowym wdrożenia DataHub)
- W najbliższym czasie będzie on dostępny jako część operacyjnej bazy danych Cloudera (COD), która jest w pełni zarządzaną ofertą eliminującą koszty zarządzania związane z obsługą wdrożenia HBase
Klienci Cloudera Apache HBase zazwyczaj uruchamiają aplikacje o znaczeniu krytycznym, które nie mogą sobie pozwolić na żadne przestoje. Potrzebują sposobu na migrację do nowego wdrożenia bez przerwy w produkcji lub co najmniej z niewielką przerwą. Mając na uwadze te kwestie związane z aktualizacją, zwłaszcza w obliczu zbliżającego się końca wsparcia dla CDH5 i HDP 2, opracowaliśmy wtyczkę Cloudera OpDB Replication .
Wiele firm wdraża również klastry HBase oparte na CDH 6, HDP 3 i EMR, ale stara się zmniejszyć lub wyeliminować obciążenie operacyjne związane z utrzymaniem klastrów HBase. Dla nich Wtyczka Cloudera OpDB Replication może umożliwić im migrację do DataHub lub COD bez przestojów lub przerw w produkcji.
Wtyczka replikacji obsługuje replikację z następujących źródłowych klastrów HBase:
- CDH 5,14
- CDH 6,3
- HDP 2.6.5
- HDP 3.1.5
- EMR 5,28
Replikacja HBase
HBase zapewnia dojrzałe, bogate w funkcje możliwości replikacji od prawie dekady. Replikacja jest jedną z najpopularniejszych funkcji HBase, ponieważ zapewnia rozwiązanie do automatycznego odzyskiwania po awarii (DR), obsługuje migrację danych, obsługuje partycjonowanie obciążenia i/lub obsługuje indeks pomocniczy oparty na wyszukiwaniu poprzez integrację z Apache Solr. Szczegółowe omówienie sposobu działania replikacji HBase i konfiguracji replikacji jest wyjaśnione w przewodniku HBase Reference Guide i zostało omówione w wielu artykułach na blogu Cloudera. Obecnie obsługuje wiele topologii, w tym:
- Wachlarz
- Rozkładanie
- Cykliczny
- Dwukierunkowy
Replikację HBase można skonfigurować na poziomie przestrzeni nazw (tj. bazy danych) lub na poziomie tabeli. Chociaż ma charakter zbliżony do czasu rzeczywistego, można go skonfigurować tak, aby ostatecznie był spójny lub spójny z osią czasu.
Wtyczka Cloudera OpDB Replication obsługuje tylko klaster docelowy dostarczony przez klaster CDP DataHub lub przez bazę danych COD, wdrożoną w AWS lub Azure.
Budowanie zaufania
Replikacja HBase do tej pory wymagała, aby wszystkie uczestniczące klastry miały te same definicje zabezpieczeń, innymi słowy, wszystkie klastry muszą albo nie mieć włączonych zabezpieczeń (konfiguracja uwierzytelniania ustawiona na prosta) lub wszystkie klastry muszą mieć włączone zabezpieczenia z kerberos (konfiguracja uwierzytelniania ustawiona na kerberos) .
Gdy używany jest protokół Kerberos, wszystkie podmioty główne Kerberos klastrów muszą należeć do tej samej dziedziny, lub jeśli w różnych domenach, muszą one być godne zaufania między sobą (powszechnie znane jako cross-realm uwierzytelnianie).
Konfigurowanie zaufania między obszarami za pomocą protokołu Kerberos jest problematyczny w większości organizacji, ponieważ korporacyjne zasady bezpieczeństwa zwykle tego zabraniają. Aby rozwiązać ten problem, wtyczka Cloudera OpDB Replication rozszerza replikację HBase o alternatywną metodę uwierzytelniania, umożliwiając replikację w domenach zabezpieczeń. Wtyczka replikacji umożliwia replikację
- W wielu domenach Kerberos bez konieczności zaufania między obszarami
- Replikacja z bezpiecznych do niezabezpieczonych klastrów i
- Replikacja z klastrów niezabezpieczonych do bezpiecznych.
Aby ustanowić zaufanie z klastrów CDP do klastrów, które nie mają konfiguracji zabezpieczeń lub są zabezpieczone przy użyciu protokołu Kerberos, wtyczka replikacji implementuje nowy mechanizm uwierzytelniania przy użyciu współdzielonego klucza tajnego, który jest tworzony przy użyciu dostarczonego narzędzia i przechowywany zarówno w klastrach źródłowych, jak i docelowych.
Wniosek
Replikacja to cenne narzędzie do wdrażania rozwiązań migracji DR i centrów danych (DC) dla HBase. Ma pewne zastrzeżenia, jak pokazano tutaj, gdy mamy do czynienia z konfiguracjami bezpieczeństwa klastrów. Wraz ze zbliżającym się końcem okresu eksploatacji CDH 5 i HDP 2, możliwość migracji danych z tych starszych platform do CDP jest niezbędna.
W przypadku klientów z wdrożeniami HBase opartymi na HDP3, CDH6 i EMR 5.28 ta wtyczka umożliwia tym klientom bezproblemowe wdrożenie w pełni zarządzanego rozwiązania HBase i drastyczne zmniejszenie kosztów operacyjnych związanych z zarządzaniem HBase.
Skontaktuj się z zespołem ds. kont Cloudera, jeśli jesteś zainteresowany wdrożeniem wtyczki Cloudera OpDB Replication Plugin w swoim środowisku.