MongoDB
 sql >> Baza danych >  >> NoSQL >> MongoDB

jak przechowywać przetworzone dane z hdfs za pomocą mapReduce w mongoDB jako wyjście?

Zasadniczo potrzebujesz zmienić „klasę formatu wyjściowego” i masz na to kilka sposobów:

  1. Użyj MongoDB Connector dla Hadoop :http://docs.mongodb.org/ecosystem/tools /hadoop/?_ga=1.111209414.370990604.1441913822
  2. Zaimplementuj własny OutputFormat :https://hadoop. apache.org/docs/r2.7.0/api/org/apache/hadoop/mapred/OutputFormat.html (Zamiast używać FileOutputFormat).
  3. Wykonywanie zapytań mongodb wewnątrz reduktora zamiast pisać w kontekście MapREduce (nieładnie, możesz skończyć z pustymi plikami wyjściowymi w HDFS w zależności od OutputFormat określonego w sterowniku)

Moim zdaniem opcja 1 jest najlepszą opcją, ale nie używałem konektora MongoDB, aby stwierdzić, czy jest wystarczająco stabilne i funkcjonalne. Opcja 2 wymaga, abyś naprawdę zrozumiał, jak działa hadoop, aby uniknąć końca z wieloma otwartymi połączeniami i problemami z transakcjami i ponawianiem zadań hadoop.




  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Jak zarządzać szablonami konfiguracji dla baz danych za pomocą ClusterControl

  2. Tworzenie wielu najemców spring-data-mongodb

  3. Zmień typ danych z ciągu na datę, pomijając brakujące dane

  4. znajdź według $numeru w mongodb

  5. Ładny wydruk w powłoce MongoDB domyślnie