Relacyjne bazy danych przez długi czas wystarczały do obsługi małych lub średnich zbiorów danych. Jednak kolosalne tempo wzrostu ilości danych sprawia, że tradycyjne podejście do przechowywania i wyszukiwania danych jest niewykonalne. Problem ten rozwiązują nowsze technologie, które obsługują Big Data. Hadoop, Hive i Hbase to popularne platformy do obsługi tego rodzaju dużych zbiorów danych. Bazy danych NoSQL lub Not Only SQL, takie jak MongoDB®, zapewniają mechanizm przechowywania i pobierania danych w modelu przegranej spójności z takimi zaletami, jak:
- Skalowanie w poziomie
- Większa dostępność
- Szybszy dostęp
Zespół inżynierów MongoDB® niedawno zaktualizował złącze MongoDB® dla platformy Hadoop, aby zapewnić lepszą integrację. Ułatwia to użytkownikom Hadoop:
- Zintegruj dane w czasie rzeczywistym z MongoDB® z Hadoop, aby uzyskać dogłębną analizę offline.
- Łącznik udostępnia analityczną moc MapReduce Hadoop w żywych danych aplikacji z MongoDB®, szybciej i wydajniej generując wartość z dużych zbiorów danych.
- Connector przedstawia MongoDB jako system plików zgodny z Hadoop, umożliwiając zadanie MapReduce bezpośrednio odczytywać z MongoDB® bez uprzedniego kopiowania go do HDFS (system plików Hadoop), eliminując w ten sposób potrzebę do przenoszenia terabajtów danych w sieci.
- Zadania MapReduce mogą przekazywać zapytania jako filtry, dzięki czemu nie trzeba skanować całych kolekcji, a także mogą korzystać z bogatych możliwości indeksowania MongoDB®, w tym geoprzestrzennych, tekstowych wyszukiwanie, tablica, indeksy złożone i rzadkie.
- Odczytując z MongoDB®, wyniki zadań Hadoop można również zapisywać z powrotem do MongoDB®, aby wspierać procesy operacyjne w czasie rzeczywistym i zapytania ad hoc.
Przypadki użycia Hadoop i MongoDB®:
Przyjrzyjmy się ogólnemu opisowi tego, jak MongoDB® i Hadoop mogą pasować do siebie w typowym stosie Big Data. Przede wszystkim mamy:
- MongoDB® używany jako „Operacyjny” magazyn danych w czasie rzeczywistym
- Hadoop do wsadowego przetwarzania i analizy danych offline
Przeczytaj dalej, aby dowiedzieć się, dlaczego MongoDB jest bazą danych do przetwarzania Big Data oraz w jaki sposób MongoDB® był używany przez firmy i organizacje, takie jak Aadhar, Shutterfly, Metlife i eBay.
Zastosowanie MongoDB® z Hadoop w agregacji wsadowej:
W większości scenariuszy do analizy danych wystarcza wbudowana funkcja agregacji dostarczana przez MongoDB®. Jednak w niektórych przypadkach może być konieczna znacznie bardziej złożona agregacja danych. To tutaj Hadoop może zapewnić potężne ramy dla złożonych analiz.
W tym scenariuszu:
- Dane są pobierane z MongoDB® i przetwarzane w Hadoop za pomocą co najmniej jednego zadania MapReduce. Dane mogą być również pozyskiwane z innych miejsc w ramach tych zadań MapReduce w celu opracowania rozwiązania obejmującego wiele źródeł danych.
- Wyniki z tych zadań MapReduce można następnie zapisywać z powrotem do MongoDB® w celu zapytania na późniejszym etapie i dowolnej analizy ad hoc.
- Aplikacje zbudowane na bazie MongoDB® mogą zatem wykorzystywać informacje z analizy wsadowej do prezentowania klientowi końcowemu lub włączania innych funkcji.
Aplikacja w hurtowni danych:
W typowej konfiguracji produkcyjnej dane aplikacji mogą znajdować się w wielu magazynach danych, z których każdy ma własny język zapytań i funkcje. Aby zmniejszyć złożoność w tych scenariuszach, Hadoop może być używany jako hurtownia danych i działać jako scentralizowane repozytorium danych z różnych źródeł.
W takim scenariuszu:
- Okresowe zadania MapReduce ładują dane z MongoDB® do Hadoop.
- Gdy dane z MongoDB® i innych źródeł będą dostępne w Hadoop, można uzyskać zapytanie o większy zbiór danych.
- Analitycy danych mają teraz możliwość używania MapReduce lub Pig do tworzenia zadań, które wysyłają zapytania do większych zbiorów danych zawierających dane z MongoDB®.
Zespół pracujący nad MongoDB® zapewnił, że dzięki bogatej integracji z technologiami Big Data, takimi jak Hadoop, jest w stanie dobrze zintegrować się ze stosem Big Data i pomóc rozwiązać niektóre złożone problemy architektoniczne jeśli chodzi o przechowywanie, wyszukiwanie, przetwarzanie, agregowanie i magazynowanie danych. Bądź na bieżąco z naszym nadchodzącym postem na temat perspektyw zawodowych dla tych, którzy podejmują Hadoop z MongoDB®. Jeśli już pracujesz z Hadoop lub po prostu odbierasz MongoDB®, sprawdź kursy, które oferujemy dla MongoDB® tutaj
Dowiedz się więcej o koncepcjach Hadoop. Sprawdź ten kurs online Big Data , który został stworzony przez Top Industrial Working Experts.