PostgreSQL
 sql >> Baza danych >  >> RDS >> PostgreSQL

Partycje SparkSQL PostgresQL Dataframe

Zasadniczo do obliczenia przyrostu lub podziału dla każdego zadania równoległego wykorzystywane są dolna i górna granica oraz liczba partycji.

Załóżmy, że tabela ma kolumnę partycji „rok” i zawiera dane od 2006 do 2016 roku.

Jeśli zdefiniujesz liczbę partycji na 10, z dolną granicą 2006 i wyższą granicą 2016, każde zadanie będzie pobierało dane z własnego roku - idealny przypadek.

Nawet jeśli błędnie określisz dolną i/lub górną granicę, np. ustaw lower =0 i upper =2016, nastąpi przekrzywienie w przesyłaniu danych, ale nie "stracisz" ani nie uda Ci się pobrać żadnych danych, ponieważ:

Pierwsze zadanie pobierze dane za rok <0.

Drugie zadanie pobierze dane za rok od 0 do 2016/10.

Trzecie zadanie pobierze dane za rok od 2016/10 do 2*2016/10.

...

A ostatnie zadanie będzie miało warunek „gdzie” z rokiem->2016.

T.



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. PostgreSQL:Grupowanie, a następnie filtrowanie tabeli z warunkiem nieistnienia

  2. WYBIERZ w JSONField z Django

  3. Przegląd różnych węzłów planu pomocniczego w PostgreSQL

  4. Zdobycie wszystkich budynków w zasięgu 5 mil od określonych współrzędnych

  5. PostgreSQL:42883 Operator nie istnieje:znacznik czasu bez strefy czasowej =tekst