How-to:Dodaj Cloudera Search do swojego klastra za pomocą Cloudera Manager

Cloudera Manager 4.7 dodał wsparcie dla zarządzania Cloudera Search 1.0. Dzięki temu użytkownicy Cloudera Manager mogą z łatwością wdrażać wszystkie komponenty Cloudera Search (w tym Apache Solr) i zarządzać wszystkimi powiązanymi usługami, tak jak każda inna usługa zawarta w CDH (dystrybucja Apache Hadoop i powiązanych projektów Cloudera).

W tym poradniku poznasz kroki związane z dodawaniem Cloudera Search do klastra Cloudera Enterprise (CDH + Cloudera Manager).

Instalacja paczki SOLR

W naszym przykładzie klaster używa paczki CDH 4.4 i obsługuje usługi Apache ZooKeeper, HDFS i Apache HBase. (Paczki są naprawdę przydatnym sposobem na wdrażanie nowego oprogramowania i przeprowadzanie bezbolesnych aktualizacji za pośrednictwem Cloudera Manager.)

Jeśli chcesz pobrać przesyłkę SOLR bezpośrednio z Cloudera, możesz użyć domyślnych ustawień dla „Zdalnych adresów URL repozytorium przesyłek” (w sekcji Paczki w zakładce Administracja), jak pokazano poniżej:

Ustawianie adresu URL repozytorium działek

Jeśli chcesz skorzystać z lokalnego repozytorium (czyli najpierw pobrać paczkę z Cloudera, a następnie zainstalować z lokalnej kopii), możesz postępować zgodnie z instrukcjami tutaj. Kolejne kroki to „Pobranie”, „Dystrybucja” i „Aktywacja” paczki na stronie Paczki w zakładce Gospodarze.

Wdrażanie paczki SOLR

Po aktywacji paczki wszystkie komponenty Cloudera Search (Solr, Lily HBase Indexer i Apache Flume’s Morphlines Sink) są gotowe do użycia wraz z CDH.

Kolejnym krokiem jest dodanie usługi Apache Solr do Twojego klastra. W menu „Akcje” klastra na karcie Usługi wybierz „Dodaj usługę”, co przeniesie Cię do „Kreatora dodawania usług” w Cloudera Manager. Po wykonaniu kroków w kreatorze i wybraniu miejsca, w którym mają działać serwery Solr, wylądujesz na stronie przepływu pracy, która zainicjuje usługę Solr i uruchomi wszystkie serwery Solr.

Uruchamianie i uruchamianie usługi Solr

To wszystko — usługa Solr jest już gotowa do użycia! Postępuj zgodnie z instrukcjami w Przewodniku użytkownika Cloudera Search do tworzenia kolekcji i dodawania do nich dokumentów do indeksowania. Poniższy zrzut ekranu pokazuje, jak utworzyć kolekcję przy użyciu domyślnego schematu Solr.

Tworzenie pierwszej kolekcji

Dodawanie indeksatora Lily HBase

Cloudera Manager 4.7 zapewnia również wsparcie dla Lily HBase Indexer dołączonego do przesyłki SOLR. Usługa Lily HBase Indexer to elastyczny, skalowalny, odporny na błędy, transakcyjny system w czasie zbliżonym do rzeczywistego do przetwarzania ciągłego strumienia aktualizacji komórek HBase w indeksy wyszukiwania na żywo. Aby z niego skorzystać, dodaj usługę „Keystore Indexer” za pomocą „Kreatora dodawania usług”.

Jednak zanim będzie można użyć Lily HBase Indexer, należy upewnić się, że replikacja i indeksowanie są włączone w usłudze HBase w klastrze. Możesz zmienić te właściwości na stronie konfiguracji usługi HBase w sekcji „Kopia zapasowa”.

Ustawianie właściwości HBase dla Lily HBase Indexer

Należy również pamiętać, że Cloudera Manager zawiera domyślny plik Cloudera Morphlines, który może być używany przez Lily HBase Indexer. Aby zmodyfikować ten plik tak, aby korzystał z własnych funkcji, należy przejść do usługi Keystore Indexer i zmodyfikować konfigurację Morphlines, jak pokazano poniżej:

Edycja Cloudera Morphlines dla Lily HBase Indexer

Po wprowadzeniu tych zmian możesz zacząć używać Lily HBase Indexer do indeksowania wszelkich danych przychodzących do HBase, postępując zgodnie z instrukcjami w Podręczniku użytkownika Lily HBase Indexer . Ten post na blogu stanowi również doskonały przykład indeksowania wiadomości e-mail za pomocą HBase i Cloudera Search.

Wniosek

Teraz wiesz, jak łatwo wdrożyć, skonfigurować i zarządzać usługą Cloudera Search w klastrze CDH za pomocą Cloudera Manager. Począwszy od Cloudera Enterprise 5 (w wersji beta w momencie pisania tego tekstu), Cloudera Search i indeksator Lily HBase będą instalowane i uruchamiane domyślnie – co jeszcze bardziej ułatwia ten proces.

Vikram Srivastava jest inżynierem oprogramowania w Cloudera.