HBase
 sql >> Baza danych >  >> NoSQL >> HBase

Wszystkiego najlepszego Apache HBase! 10 lat odporności, stabilności i wydajności

Apache HBase stał się projektem najwyższego poziomu z Apache 10 lat temu, a Cloudera zaczęła się do niego przyczyniać w tym samym czasie (2010). W tym czasie stał się jednym z największych i najpopularniejszych narzędzi typu open source w dużych zbiorach danych i jedną z najpopularniejszych baz danych NoSQL.

Fundacja Apache Software Foundation ogłasza 10. rocznicę Apache HBase

HBase obsługuje zarówno klucz-wartość, jak i szerokokolumnową bazę danych NoSQL i jest używany przez przedsiębiorstwa w szerokim zakresie. Cloudera ma ponad 500 klientów w produkcji, którzy używają go do zastosowań, od aplikacji o znaczeniu krytycznym, hurtowni danych, uczenia maszynowego i inżynierii danych. Nasi klienci wybierają HBase ze względu na jego odporność (niektórzy klienci są w stanie zapewnić 100% bezawaryjnej pracy aplikacji przez wiele lat), stabilność, wydajność i niskie koszty operacyjne. Klienci Cloudera wdrażają ją samodzielnie, wraz z Phoenix, która jest bazą danych opartą na SQL zbudowaną na HBase, a czasami z Apache Impala i/lub Apache Hive, która pozwala im uruchamiać zapytania OLAP oparte na SQL na HBase.

Od 2018 roku jestem Product Managerem oferty Operacyjnej Bazy Danych Cloudera i miałem okazję spotkać się z wieloma naszymi klientami. Nieustannie jestem pod wrażeniem szerokiej gamy sposobów, w jakie klienci korzystają z HBase. Zakres przypadków użycia jest tak duży i zróżnicowany, że nie pozwala na segmentację. Po wielu analizach uzyskałem proste podejście do klasyfikowania przypadków użycia — klientów, którzy używają go do obsługi aplikacji o znaczeniu krytycznym i tych, którzy tego nie robią. Aplikacje o znaczeniu krytycznym mają zazwyczaj charakter transakcyjny i pomagają naszym klientom w zwiększaniu przychodów i/lub zwiększaniu wydajności operacyjnej. Dla nich, jeśli HBase spadnie, wpłynie to na górną linię i / lub dolną linię, aw najgorszym przypadku ludzie mogą umrzeć.

Przykłady zastosowań o znaczeniu krytycznym:

  • Sprzedawca oprogramowania dla służby zdrowia używa HBase do obsługi setek aplikacji. Jeśli te aplikacje zawiodą, z jakiegokolwiek powodu ludzie mogą umrzeć, a koszty opieki zdrowotnej wzrosną. Ten klient wdrożył HBase na ponad 7000 węzłów z ponad 70 PB danych.
  • Producent telefonów komórkowych używa HBase, aby włączyć asystenta głosowego i wiele innych przypadków użycia na ponad 6000 węzłów
  • Finansowy dom mediowy wykorzystuje HBase do zasilania części platformy i umożliwia traderom i innym zrozumienie kontekstu związanego z ruchami cen akcji, trendami itp. w ponad 1200 węzłach
  • Wiodąca na rynku platforma do e-mail marketingu obsługuje HBase na ~1000 węzłach
  • Dostawca ubezpieczeń używa HBase na ~1000 węzłach do przechowywania wszystkich informacji o roszczeniach i używa ich do zarządzania tymi roszczeniami przez cały cykl życia
  • Dostawca usług bibliotecznych używa HBase na ponad 400 węzłach do obsługi wypożyczeń międzybibliotecznych na całym świecie
  • Globalna firma zajmująca się dystrybucją energii wykorzystuje HBase na ponad 400 węzłach do przyjmowania odczytów z ponad 7 milionów inteligentnych liczników oraz do automatycznego wdrażania zespołów naprawczych dla sieci dystrybucji energii elektrycznej, aplikacji rozliczeniowych i prowadzić ciągłe szkolenie modeli uczenia maszynowego
  • Największy indonezyjski operator telekomunikacyjny, Telkomsel, z ponad 170 milionami klientów, przeprowadził migrację całej swojej aplikacji CRM ze starszej bazy danych MPP do HBase i Impala i był w stanie osiągnąć czas reakcji poniżej sekundy wszystkie zapytania CRM dla indywidualnych użytkowników rekordów połączeń, profili, doładowań, wykorzystania danych itp. Zaletą posiadania Impala do zapytania HBase było zapewnienie interfejsu zgodnego z ANSI SQL dostępnego za pośrednictwem JDBC w celu zminimalizowania zmian w CRM.

Przykłady zastosowań niekrytycznych dla misji:

  • Producent produktów do higieny osobistej używa HBase do zarządzania wszystkimi markami swoich produktów i materiałami marketingowymi
  • Producent półprzewodników używa HBase do przechowywania plików dziennika swoich produktów i wyodrębniania ich do innych systemów w celu analizy
  • Dostawca telekomunikacyjny używa HBase do przechowywania tabel wymiarów dla Hive

To, co odróżnia HBase od innych ofert NoSQL, to jego integracja z ekosystemem Open Source, Big Data, który umożliwia klientom korzystanie z kompleksowej obsługi. Mogą go używać do aplikacji, które potrzebują danych z brzegu lub aplikacji, które muszą dostarczać modele AI/ML na dużą skalę lub dowolną ich kombinację.

Jednym z najbardziej interesujących zgłoszeń pomocy technicznej, z jakimi spotkałem się w Cloudera, jest zgłoszenie przez klienta HBase zgłoszenia o wysokim priorytecie, wskazującego, że jego wdrożenie o znaczeniu krytycznym nie powiodło się. Nie kontaktowali się z nami od ponad roku i nawet nie wiedziałem, że są ważnym klientem. Dopiero w tym przypadku dowiedziałem się, że wdrożyli 1000 węzłów do obsługi platformy marketingu wielokanałowego na HBase. Podstawą problemu było to, że wprowadzili kilka problematycznych zmian w ustawieniach konfiguracyjnych 9 miesięcy przed incydentem. Kiedy w końcu się zrestartowali, problematyczne ustawienia konfiguracyjne zaczęły obowiązywać, powodując, że poprosili o pomoc Cloudera!

Cloudera bardzo dba o HBase i ma w projekcie 15 commiterów i członków PMC. Inwestujemy również, aby udostępnić go w chmurze publicznej, zarówno w formacie PaaS, jak i dbPaaS.

Doświadczenia HBase na przestrzeni lat

Biorąc pod uwagę nasze wieloletnie zaangażowanie i historię związaną z tym projektem, chcieliśmy podzielić się kilkoma doświadczeniami i historiami związanymi z tym projektem z całego zespołu Cloudera.

„Lata temu uczestniczyłem w konferencji technicznej poświęconej Apache Hadoop. Pewnego późnego wieczoru szedłem z powrotem do swojego pokoju i przypadkiem zobaczyłem grupę osób, które rozpoznałem jako długoletnich klientów, stłoczonych wokół stołu. Teraz jest to bardzo kompetentna grupa osób, z którą pracowałem już wiele lat. Przechadzałam się, zamierzając krótko się przywitać i ruszyć w drogę po długim dniu. Okazało się, że mieli przerwę produkcyjną na jednym ze swoich systemów i byli w trakcie próby rozwiązania tego problemu. Usiadłem, wyciągnąłem laptopa i spędzałem z nimi czas przez kilka następnych godzin, podczas gdy analizowaliśmy problem i rozwiązywaliśmy problemy, które znaleźliśmy. Wspieranie aplikacji o znaczeniu krytycznym czasami wymaga heroizmu, ale czasami można też spotkać po drodze kilka ptaków”.

— Starszy inżynier

„W naturze wielu firm jest absolutnie niezbędne, aby móc skalować i nadal spełniać wymagania dotyczące małych opóźnień w ich systemie o znaczeniu krytycznym. Jeśli spojrzysz wstecz do archiwów, nasi klienci mieli ciężkie czasy, aby sprostać tak trudnym standardom. HBase zawiera elementy, które sprawiły, że spełnienie tych oczekiwań było łatwe, zwłaszcza poprzez zminimalizowanie czasu na uruchomienie następnej najlepszej akcji”.

— Główny architekt rozwiązań

„Trzy lata temu byłem nowym managerem stolarskim Engineering Manager w Cloudera. Kiedyś wiedziałem o działalności firmy na zasadach open source i jestem użytkownikiem GNU Linux od szkoły średniej, ale używanie open source i bycie jego częścią to zupełnie inne rzeczy.

Jako nowy facet w firmie musiałem zrozumieć, co robi zespół, więc dostałem kilka przypisanych mi zgłoszeń do pomocy technicznej i zacząłem nad nimi pracować. Wiedziałem tylko dwie rzeczy, byłem programistą Java przez wiele lat, więc muszę być w stanie to zrobić, a Hortonworks jest naszym najtrudniejszym konkurentem, co oznacza, że ​​praca z nimi może być interesująca.

I wtedy to się stało, z moim pierwszym w historii biletem Apache HBase natknąłem się na Josha Elsera – szefa zespołu HBase Hortonworks – który pokazał mi, że wdrożenie nowego zadania może być trudniejsze niż się spodziewałem (z paskami jakości, jakie ma zespół HBase) i że Twój konkurent może być Twoim najlepszym partnerem w społeczności open-source. W końcu zatwierdził moje zmiany.

W ciągu ostatnich trzech lat wiele się zmieniło. Cloudera i Hortonworks połączyły się, teraz pracujemy w tej samej firmie, ale Apache i HBase są takie same. Mam ograniczony czas na pracę nad kodem, ale widzę jego moc, widzę, jak jest wykorzystywany w usługach, o których istnieniu nie wiedziałem, i widzę, jak ludzie na całym świecie współpracują ze sobą. Łączy ludzi ponad firmami, kontynentami, kulturami”.

— Kierownik Inżynierii

„HBase i Phoenix były łatwe do nauczenia. Data Hub ułatwia rozpoczęcie pracy i teraz czekamy na operacyjną bazę danych Cloudera, która przeniesie HBase na następną dekadę”.

— Menadżer ds. sukcesu klienta technicznego

„W ciągu ostatnich 9 lat byłem od linii frontu do rozwoju HBase i widziałem ewolucję sposobu, w jaki nasi klienci korzystają z HBase, od POC do platform o znaczeniu krytycznym na dużą skalę. Najbardziej niezwykły moment w tym czasie miał miejsce przed fuzją Cloudera i Hortonworks, kiedy zespoły obu firm pracowały wspólnie nad poprawą funkcjonalności jednej krytycznej funkcji produktu. Ostatecznie praca została zaprezentowana na HBaseCon i spotkała się z dużym uznaniem dwóch największych użytkowników HBase. Ta funkcja obsługuje krytyczną funkcjonalność używaną przez ponad 2B urządzeń mobilnych na całym świecie”.

– Starszy Inżynier

„Kolejnym wspaniałym momentem z ostatnich 10 lat HBase był HBaseCon 2015, kiedy Carter Page z Google publicznie docenił sposób, w jaki HBase przekształcił się w bardzo solidny projekt”

– Starszy Inżynier

„Miałem przyjemność uczestniczyć w prawie wszystkich HBaseCons (i przemawiać na niektórych z nich). Oto trzy z moich ulubionych wspomnień z HBaseCon:(1) Różnorodność HBase:w ogłoszeniu HBase 2.0 podkreślono nie tylko liczbę wysłanych JIRA, ale także liczbę zatwierdzających HBase i członków PMC spoza USA oraz kobietę kierującą HBase PMC , (2) Rozmach HBase:ogłoszenie Facebooka, że ​​opuszczają swój niestandardowy widelec, aby przejść w 100% do Apache HBase, oraz (3) etapy rozwoju HBase:na jednym HBaseCon, programista Bloomberg wygłosił wykład na temat replik, a następnie dwa HBaseCons później , programista Apple wygłosił przemówienie programowe HBaseCon dotyczące używania replik do odczytu w produkcji”.

– Starszy inżynier systemowy

W Cloudera nadal widzimy świetlaną przyszłość dla tego projektu i oczekujemy, że będzie on ewoluował, aby zasilać aplikacje nowej generacji budowane w chmurze w formach podobnych do PaaS i dbPaaS, a także w centrum danych z chmurą prywatną.

Aby zobaczyć podgląd tego, co nadchodzi, sprawdź Szablon operacyjnej bazy danych CDP Public Cloud .


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Instrukcje:korzystanie z interfejsu HBase Thrift, część 1

  2. Budowanie skalowalnego procesu przy użyciu NiFi, Kafka i HBase na CDP

  3. Używanie Hive do interakcji z HBase, część 1

  4. Instrukcje:testowanie aplikacji HBase przy użyciu popularnych narzędzi

  5. Kopie zapasowe online Apache HBase z CopyTable