PostgreSQL
 sql >> Baza danych >  >> RDS >> PostgreSQL

Używanie pyspark do łączenia się z PostgreSQL

Pobierz sterownik PostgreSQL JDBC z https://jdbc.postgresql.org/download.html

Następnie zastąp wartości konfiguracyjne bazy danych swoimi.

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.jars", "/path_to_postgresDriver/postgresql-42.2.5.jar") \
    .getOrCreate()

df = spark.read \
    .format("jdbc") \
    .option("url", "jdbc:postgresql://localhost:5432/databasename") \
    .option("dbtable", "tablename") \
    .option("user", "username") \
    .option("password", "password") \
    .option("driver", "org.postgresql.Driver") \
    .load()

df.printSchema()

Więcej informacji:https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. nie można uruchomić prostego wstawiania PostgreSQL

  2. JOIN (WYBIERZ ... ) ue ON 1=1?

  3. Używanie row_to_json() z połączeniami zagnieżdżonymi

  4. Jak zaokrąglić do najbliższych X minut w PL/pgSQL?

  5. 5 najlepszych narzędzi do monitorowania zapytań PostgreSQL