HBase
 sql >> Baza danych >  >> NoSQL >> HBase

Administracja operacyjną bazą danych

Nota redaktora, sierpień 2020 r.:CDP Data Center nosi teraz nazwę CDP Private Cloud Base. Więcej informacji na ten temat znajdziesz tutaj.

Wprowadzenie

Ten wpis na blogu jest częścią serii dotyczącej operacyjnej bazy danych Cloudera (OpDB) w CDP. Każdy post zawiera więcej szczegółów na temat nowych funkcji i możliwości. Zacznij od początku serii od Operacyjnej Bazy Danych w CDP.

Ten wpis na blogu zawiera przegląd narzędzi i funkcji administracyjnych operacyjnej bazy danych (OpDB) w Cloudera Data Platform. Obecnie jest dostępny w dwóch formach:jako w pełni bezpieczna, częściowo zarządzana oferta w CDP Public Cloud – Data Hub oraz jako w pełni konfigurowalna oferta w CDP Data Center (podobnie jak w CDH i HDP). Więcej informacji o Data Hub znajdziesz w Cloudera Data Hub.

Rys 1:Klaster OpDB Data Hub.

Możesz skorzystać z łączy w tym artykule, aby uzyskać więcej informacji i instrukcje dotyczące korzystania z tych funkcji.

Tworzenie i kontrola bazy danych

Przestrzenie nazw Apache HBase to logiczne grupy tabel, które są podobne do bazy danych w tradycyjnym relacyjnym systemie baz danych. Przestrzenie nazw można tworzyć lub zarządzać nimi za pomocą powłoki Apache HBase. Aby uzyskać więcej informacji na temat korzystania z powłoki Apache HBase, zobacz Omówienie powłoki Apache HBase.

Z Menedżerem replikacji i Ranger na zdjęciu z CDP, możesz tylko tworzyć przestrzeń nazw i zarządzać nią w powłoce HBase. Ale uprawnienia są przez Ranger, a replikacja przez Menedżera replikacji.

Podobnie jak w relacyjnej bazie danych, przestrzenie nazw zawierają kolekcje tabel i uprawnień, ustawień replikacji i izolacji zasobów. Te konfiguracje można ustawić na poziomie przestrzeni nazw. W CDP można utworzyć przestrzeń nazw i zarządzać nią za pomocą powłoki HBase. Możesz użyć Apache Ranger do szczegółowych zasad autoryzacji i inspekcji. Aby uzyskać więcej informacji na temat konfigurowania zabezpieczeń w protokole CDP, zobacz Zabezpieczenia przy użyciu Ranger.

Menedżer replikacji pomaga tworzyć zasady replikacji HBase. Możesz użyć Menedżera replikacji, aby skonfigurować replikację między CDH/HDP lub Apache HBase do CDP Data Center.

Rys 2:Tworzenie interfejsu użytkownika polityki replikacji

Graficzna funkcjonalność DDL i DCL

Dostępnych jest kilka narzędzi do tego celu, w tym wtyczki do:

  • Cloudera Machine Learning (CML):CML pomaga w zapytaniach o dane za pomocą klienta HBase i Phoenix oraz pomaga w interaktywnej eksploracji danych, wizualizacji, udostępnianiu i współpracy. OpDB może być używany do przechowywania wyników przewidywania sesji/zadań/modelu do późniejszego zapytania przez wielu różnych użytkowników.

Rys 3:Interfejs użytkownika Cloudera Machine Learning

  • Hue:Hue to internetowy interaktywny edytor zapytań, który umożliwia interakcję z hurtowniami danych. Za pomocą aplikacji HBase Browser w Hue można tworzyć i przeglądać tabele HBase.

Rys 4:Interfejs Hue obsługuje wyszukiwanie, wstawianie, aktualizowanie, usuwanie, DDL dla HBase

Możesz użyć interfejsu SQL za pomocą Impala lub Hive do przetwarzania zapytań w Hue.

Rys 5:Interfejs SQL przy użyciu Impali

Oto samouczek dotyczący tworzenia przykładowych tabel w HBase przy użyciu Hue:https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/  

  • Eclipse:Formatowanie kodu HBase dla środowiska Eclipse jest przydatne podczas edycji kodu HBase w środowisku Eclipse. Aby uzyskać więcej informacji, zobacz Tworzenie i rozwijanie Apache HBase.

Narzędzia takie jak Zeppelin i Hue wraz z wtyczkami są dostarczane po wyjęciu z pudełka. Ale możesz także użyć narzędzi SQL innych firm, takich jak Toad.

Narzędzia do aktualizacji operacyjnej wersji bazy danych

Za pomocą Cloudera Manager możesz zautomatyzować proces aktualizacji operacyjnej bazy danych w Twoim Cloudera Data Platform-Data Center (CDP-DC). Aktualizacje są dostarczane za pośrednictwem wydań lub poprawek serwisowych. Cloudera Manager instaluje wydania i/lub poprawki oraz zarządza konfiguracją, a także procesem restartu.

Jeśli korzystasz z CDP w chmurze publicznej, takiej jak Amazon AWS, musisz utworzyć nowy klaster Centrum danych, aby uaktualnić do nowych wersji różnych składników. Aby uzyskać więcej informacji na temat tworzenia nowego klastra operacyjnego bazy danych Data hub, zobacz wprowadzenie do operacyjnej bazy danych w usłudze CDP.

Oferta Cloudera jest ofertą opartą na klastrach; aktualizacje i łatki obejmują wiele węzłów (serwerów), a instalacja, konfiguracja, ponowne uruchomienie są zautomatyzowane, w tym ponowne uruchamianie kroczące w stosownych przypadkach.

Narzędzia do zarządzania poprawkami na wielu serwerach

W Centrum Danych CDP Cloudera Manager instaluje wydania i zarządza konfiguracją. Cloudera Manager wykonuje również proces restartu dla każdego z komponentów, których dotyczy problem.

Aplikacja poprawki zerowej przestoju

W Centrum Danych CDP Cloudera Manager pozwala na nanoszenie poprawek bez przestojów.

Zarządzanie zmianami na wielu serwerach

Możesz zarządzać zmianami w schematach baz danych w wielu instancjach. Na przykład możesz to zrobić w swoim środowisku testowym/programistycznym, pomostowym lub produkcyjnym.

Możesz skryptować wymagane zmiany za pomocą powłoki HBase, a następnie propagować je do innych wystąpień.

Aby uzyskać więcej informacji na temat korzystania z powłoki HBase, zobacz Powłoka Apache HBase.

Podział obciążenia

Partycjonowanie obciążenia/aplikacji można przeprowadzić w ramach OpDB przy użyciu kilku narzędzi, w zależności od charakteru zestawu obciążeń i ich potrzeb w zakresie danych.

Jeśli wszystkie aplikacje uzyskują dostęp do oddzielnych tabel, można użyć grup serwerów regionu do przydzielenia zestawu węzłów dla zdefiniowanego zestawu tabel lub przestrzeni nazw, tworząc podejście partycjonowania sprzętowego. Aby uzyskać więcej informacji na temat grup serwerów regionu, zobacz Używanie grupowania RegionServer.

W przypadku aplikacji korzystających z tego samego zestawu tabel można użyć ograniczania RPC, przydziałów użytkowników i przydziałów miejsca do zarządzania problemem hałaśliwego sąsiada. Zobacz zarządzanie ofertami HBase, aby uzyskać więcej szczegółów technicznych.

Możesz również połączyć te dwa zestawy opcji, aby uzyskać bardziej wyrafinowany schemat partycjonowania. Użyj Cloudera Manager, aby upewnić się, że określone usługi są odpowiednio podzielone między różne węzły klastra; na przykład możesz zdecydować, które węzły mają być używane do wyszukiwania SOLR itp.  

Partycjonowanie sprzętu

Cloudera Manager i YARN wykorzystują cgroups systemu Linux i aktywne zarządzanie pamięcią zarówno do statycznego, jak i dynamicznego partycjonowania zasobów sprzętowych.

Po pierwsze, wszystkie procesy działające na wszystkich hostach mogą być partycjonowane na twardo za pomocą cgroups, ustawionych przez Cloudera Manager. Po drugie, kreator pozwala użytkownikom definiować układ partycji statycznych dla usług poprzez ustawianie wartości procentowych, automatyczne tłumaczenie opartej na cgroup izolacji procesora i we/wy oraz ustawia limity pamięci, konfigurując same usługi.

Wreszcie, natywny menedżer zasobów zapewnia model kontenera dla obciążeń, który umieszcza każdą dyskretną jednostkę pracy w kontenerze, przy użyciu grup cgroup i aktywnego zarządzania pamięcią (ustawianie, monitorowanie i zabijanie) w celu izolacji aplikacji.

Nadzorcy oprogramowania

Obsługiwane są następujące hiperwizory oprogramowania

  • VMware jest obsługiwany w środowiskach lokalnych
  • Środowiska wirtualne Microsoft Azure (stos Azure)
  • Amazon Web Services, wirtualizacja Google Compute Platform i Microsoft Azure są obsługiwane w chmurze.

Obsługa kontenerów i orkiestracji

Cloudera dostarcza obraz Dockera, na którym zainstalowano Apache HBase, Apache ZooKeeper i Cloudera Manager. Możesz skonfigurować YARN do zarządzania kontenerami platformy Docker i przesyłać zadania Apache HBase do YARN w tym samym kontenerze lub przesyłać zadania do YARN z innego kontenera.

Aby uzyskać więcej informacji, zobacz Zarządzanie kontenerami Docker w YARN.

Wycofanie poprawek lub aktualizacji wydań

Cloudera Manager zapewnia automatyzację niektórych procesów przywracania. Uaktualnienia mogą czasami wiązać się ze zmianami w formatach danych. Narzędzia do cofania zmian formatu nie są obsługiwane i musisz wyzwolić przywracanie danych z kopii zapasowych, aby wycofanie mogło wykorzystać stare dane.

Migracja między platformami operacyjnymi

Standardowe narzędzia Cloudera do tworzenia kopii zapasowych/przywracania/odzyskiwania danych są dostępne w celu wsparcia migracji OpDB między różnymi systemami operacyjnymi.

Strategie tworzenia kopii zapasowych i odzyskiwania po awarii HBase zapewniają tworzenie kopii zapasowych danych w celu ochrony przed utratą danych. Migawka HBase umożliwia wykonanie migawki tabeli bez większego wpływu na serwery regionów. Również dlatego, że operacje zrzutu, klonowania i przywracania nie wymagają kopiowania danych.

Aby uzyskać więcej informacji na temat tworzenia kopii zapasowych HBase i awarii, zobacz strategie tworzenia kopii zapasowych i odzyskiwania po awarii HBase.

Narzędzia administratora baz danych (DBA)

Dostępnych jest wiele narzędzi wspierających zarządzanie bazą danych, w tym:

  • Menedżer Cloudera
  • Powłoka HBase
  • Barwa
  • HBCK2 
  • hbtop
  • Zwiadowca
  • Atlas
  • FreeIPA 
  • navencrypt 
  • Narzędzia HDFS
  • Przędza

Narzędzia te zapewniają metryki i monitorowanie, ponowne uruchamianie klastra, dodawanie pozyskiwania, zarządzanie cyklem życia, uaktualnienia, zabezpieczenia, konfigurację protokołu Kerberos i inne funkcje.

Rys 6:Interfejs Cloudera Manager HBase

Rys 7:Metryki i monitorowanie w Cloudera Manager:

Rys 8:Restart klastra w Cloudera Manager

Oprócz tych narzędzi możesz również korzystać z następujących narzędzi administracyjnych innych firm i narzędzi typu open source:

  • hrider
  • HADMIN

Otwórz udokumentowane interfejsy dla zewnętrznych narzędzi do zarządzania

Zapewniamy również otwarte interfejsy API, aby umożliwić korzystanie z innych narzędzi do zarządzania OpDB. Na przykład interfejs JMX można wykorzystać do integracji z narzędziami monitorującymi innych firm, takimi jak Grafana.

Wniosek

W tym poście na blogu przyjrzeliśmy się, jak można wykorzystać różne narzędzia administracyjne i możliwości oferowane przez OpDB w CDP. W następnym artykule omówimy, jak możesz wykorzystać możliwości zarządzania w OpDB, sprawdź to tutaj.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Indeksowanie wiadomości e-mail za pomocą Cloudera Search i HBase

  2. Apache HBase Co robić i czego nie robić

  3. Transformacja cyfrowa to podróż danych od krawędzi do wglądu

  4. Operacyjna replikacja baz danych Cloudera w skrócie

  5. Wprowadzenie do migawek Apache HBase, część 2:Głębsze nurkowanie