MongoDB
 sql >> Baza danych >  >> NoSQL >> MongoDB

Dlaczego łącznik Mongo Spark zwraca różne i nieprawidłowe liczby dla zapytania?

Rozwiązałem swój problem. Powodem niespójnych liczeń był MongoDefaultPartitioner który otacza MongoSamplePartitioner który wykorzystuje losowe pobieranie próbek. Szczerze mówiąc, jak dla mnie jest to dość dziwny błąd. Osobiście wolałbym zamiast tego mieć powolny, ale spójny program do partycjonowania. Szczegóły opcji partycjonowania można znaleźć w oficjalnych opcjach konfiguracji dokumentacja.

kod:

val df = spark.read
  .format("com.mongodb.spark.sql.DefaultSource")
  .option("uri", "mongodb://127.0.0.1/enron_mail.messages")
  .option("partitioner", "spark.mongodb.input.partitionerOptions.MongoPaginateBySizePartitioner ")
  .load()


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. jak mogę sprawdzić, na jakich portach mongo nasłuchuje z powłoki mongo?

  2. Warunkowo oceń element tablicy do zwrócenia

  3. Jak przechowywać tabelę z konkretną kolumną należy przechowywać w tablicy i pobierać ją w Angularjs (Mean Stack)

  4. Błąd podczas uruchamiania obrazu mongo - docker-entrypoint.sh:linia 381

  5. Jak uruchomić polecenie mongo za pomocą sterownika mongo-go?