Używając:
sc.parallelize(startDate to endDate)
Z danymi startData i endDate jako długimi wygenerowanymi z dat według formatu:
("yyyy-MM-dd HH:mm:ss")
Zrobiłem iskrę, aby zbudować ogromną tablicę (ponad 100 000 obiektów) do połączenia z tabelą C* i wcale nie utknęła - C * ciężko pracował, aby złączyć się i zwrócić dane.
Wreszcie zmieniłem swój zakres na:
case class TableKey(created_dh: String)
val data = Array("2015-10-29 12:00:00", "2015-10-29 13:00:00", "2015-10-29 14:00:00", "2015-10-29 15:00:00")
val snapshotsFiltered = sc.parallelize(data, 2).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tnew")
I teraz jest w porządku.