Myślę, że znalazłem problem:mongodb-hadoop ma "static" modyfikator na swoich instancjach kodera/dekodera BSON w core/src/main/java/com/mongodb/hadoop/input/MongoInputSplit.java. Gdy Spark działa w trybie wielowątkowym, wszystkie wątki próbują deserializować przy użyciu tego samego instancje kodera/dekodera, które prawdopodobnie mają złe wyniki.
Łatka na moim githubie tutaj (przesłał żądanie ściągnięcia w górę)
Jestem teraz w stanie uruchomić 8-rdzeniową wielowątkową platformę Spark->mongo collection count() z Pythona!