HBase
 sql >> Baza danych >  >> NoSQL >> HBase

Wydanie CDH 6.2:Co nowego w HBase

Cloudera niedawno wprowadziła CDH 6.2, która zawiera dwie nowe kluczowe funkcje w Apache HBase:

  1. Replikacja szeregowa
  2. Pamięć podręczna zasobnika obsługuje teraz pamięć Intel Optane

Replikacja szeregowa

HBase ma wyrafinowany mechanizm replikacji asynchronicznej, który obsługuje dziś złożone topologie, które obejmują globalne topologie round-robin, dwukierunkowe, span-in i span-out.

Ta możliwość replikacji, jak dotąd, zapewnia spójność ostateczną — co oznacza, że ​​kolejność, w jakiej są replikowane aktualizacje, niekoniecznie jest taka sama, jak kolejność ich stosowania w bazie danych. Chociaż działało to dla wielu klientów, kolejność aktualizacji w punkcie końcowym replikacji była ważna w wielu przypadkach użycia.

Funkcja replikacji szeregowej zapewnia spójność osi czasu dla replikacji. Innymi słowy, kolejność aktualizacji jest zachowywana dzięki replikacji do klastra docelowego. Taka spójność wiąże się z niewielkimi kosztami, a w niektórych przypadkach użytkownicy mogą uznać, że replikacja jest nieco wolniejsza niż domyślne podejście do replikacji.

Konfiguracja tej opcji jest dość prosta (ustaw flagę SERIAL na true) i może być zastosowana podczas konfiguracji replikacji lub w dowolnym późniejszym czasie na poziomie tabeli, na poziomie przestrzeni nazw lub dla peera, który replikuje wszystkie tabele w HBase.

Pamięć podręczna zasobnika HBase

Pamięć podręczna wiadra HBase to dwuwarstwowa pamięć podręczna, która została zaprojektowana w celu poprawy gotowej wydajności w różnych przypadkach użycia. Pierwsza warstwa znajduje się w stercie Java, a druga warstwa pamięci podręcznej może znajdować się w wielu różnych lokalizacjach, w tym:pamięć poza stertą, pamięć Intel Optane, dyski SSD lub HDD.

Zalecana konfiguracja drugiej warstwy pamięci podręcznej zasobnika dla większości klientów jest niedostępna. Wdrożenia w tej konfiguracji są w stanie skalować do znacznie większych rozmiarów pamięci niż jest to możliwe w przypadku wbudowanej pamięci podręcznej na stercie, ponieważ silnik poza stertą unika presji wyrzucania elementów bezużytecznych JVM. Większy rozmiar pamięci podręcznej zapewnia znacznie lepszą wydajność odczytu HBase.

Począwszy od CDH 6.2, Cloudera zawiera teraz możliwość korzystania z nowo wydanej pamięci Optane firmy Intel jako alternatywnego miejsca docelowego dla drugiego poziomu pamięci podręcznej zasobnika. Ta konfiguracja wdrożenia umożliwia uzyskanie ~3x wielkości pamięci podręcznej przy stałym koszcie (w porównaniu z pamięcią podręczną poza stertą w pamięci DRAM). Pociąga to za sobą pewne dodatkowe opóźnienia w porównaniu z tradycyjną konfiguracją bez sterty, ale nasze testy wskazują, że zezwalając na więcej (jeśli nie wszystkie) zestawu roboczego danych, aby zmieścić się w pamięci podręcznej, konfiguracja skutkuje poprawą wydajności netto, gdy dane jest ostatecznie przechowywany na HDFS (przy użyciu dysków twardych).

Podczas wdrażania w chmurze lub korzystania z lokalnej obiektowej pamięci masowej poprawa wydajności będzie jeszcze lepsza, ponieważ obiektowa pamięć masowa jest zwykle bardzo kosztowna w przypadku losowych odczytów niewielkich ilości danych. Poniższa tabela daje wyobrażenie o kosztach, rozmiarach i opóźnieniach wymaganych podczas planowania konfiguracji drugiej warstwy pamięci podręcznej zasobnika.

Pamięć Koszt w PLN/GB Rozmiar (koszt stały) Opóźnienie
DRAM ze sterty 35 1,0 GB ~70 ns
Intel Optane¹ 13 2,7 GB 180-340 ns
SSD 0.15 233,3 GB 10-100 µs
Dysk twardy² 0,027 1.3 TB 4-10 ms
Przechowywanie obiektów³ 0,006 5.8 TB 10-100 ms

Przeczytaj ten blog, aby dowiedzieć się więcej o współpracy firm Intel i Cloudera w zakresie wykorzystania pamięci trwałej Optane DC do poprawy wydajności.

Referencje:

  1. Omówienie wydajności pamięci trwałej Optane DC (https://www.youtube.com/watch?v=UTVt_AZmWjM) – minuta 6:53,
    https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
    https://www.tomshardware.com/news/intel-optane- dimm-pricing-performance,39007.html
  2. https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
    https://www.westerndigital.com/ produkty/dyski-centrum danych#hard-disk-hdd
  3. https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf

  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Świadomość szafy w Hadoop i jej zalety

  2. Wprowadzenie do federacji i architektury HDFS

  3. Konwertowanie list ACL HBase na zasady Ranger

  4. Instrukcje:skanowanie tabel Salted Apache HBase z zakresami kluczy specyficznymi dla regionu w MapReduce

  5. Złącze Spark HBase – rok w przeglądzie