Jeśli chcesz zmodyfikować (usunąć rekordy) rzeczywiste źródło danych, tj. tabele w postgresie, Spark nie byłby świetnym sposobem. Możesz użyć klienta jdbc bezpośrednio, aby osiągnąć to samo.
Jeśli i tak chcesz to zrobić (w sposób rozproszony na podstawie pewnych wskazówek, które obliczasz w ramach ramek danych); możesz mieć ten sam kod klienta jdbc napisany w korespondencji z ramką danych, która ma informacje logiczne/wyzwalające do usuwania rekordów i które możemy wykonywać równolegle na wielu procesach roboczych.