Oracle
 sql >> Baza danych >  >> RDS >> Oracle

Przenieś dane z Oracle do HDFS, przetwórz i przenieś do Teradata z HDFS

Wygląda na to, że masz kilka pytań, więc spróbujmy je wyjaśnić.

Importowanie w HDFS

Wygląda na to, że szukasz Sqoop . Sqoop to narzędzie, które umożliwia łatwe przesyłanie danych do / z HDFS i może łączyć się z różnymi bazami danych, w tym natywnie Oracle. Sqoop jest zgodny z cienkim sterownikiem Oracle JDBC. Oto jak można przenieść z Oracle do HDFS:

sqoop import --connect jdbc:oracle:[email protected]:1521/db --username xxx --password yyy --table tbl --target-dir /path/to/dir

Więcej informacji:tutaj i tutaj . Pamiętaj, że możesz również importować bezpośrednio do tabeli Hive za pomocą Sqoop, co może być wygodne do przeprowadzenia analizy.

Przetwarzanie

Jak zauważyłeś, ponieważ początkowo dane są relacyjne, dobrym pomysłem jest użycie Hive do przeprowadzenia analizy, ponieważ możesz lepiej znać składnię podobną do SQL. Pig jest bardziej czystą algebrą relacyjną, a składnia NIE jest podobna do SQL, jest to raczej kwestia preferencji, ale oba podejścia powinny działać dobrze.

Ponieważ możesz importować dane do Hive bezpośrednio za pomocą Sqoop, Twoje dane powinny być bezpośrednio gotowe do przetwarzania po zaimportowaniu.

W Hive możesz uruchomić zapytanie i nakazać zapisanie wyników w HDFS:

hive -e "insert overwrite directory '/path/to/output' select * from mytable ..."

Eksportowanie do TeraData

Cloudera wydała w zeszłym roku złącze dla Teradata dla Sqoop zgodnie z opisem tutaj , więc powinieneś spojrzeć, ponieważ wygląda dokładnie tak, jak chcesz. Oto jak byś to zrobił:

sqoop export --connect jdbc:teradata://localhost/DATABASE=MY_BASE --username sqooptest --password xxxxx --table MY_DATA --export-dir /path/to/hive/output

Całość jest zdecydowanie wykonalna w dowolnym czasie, w końcu liczy się rozmiar klastra, jeśli chcesz to szybko, skaluj klaster w miarę potrzeb. Dobrą rzeczą w Hive i Sqoop jest to, że przetwarzanie będzie rozłożone w klastrze, dzięki czemu masz całkowitą kontrolę nad harmonogramem.



  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Dowiedz się, jak wykonać procedurę w Toad For Oracle

  2. Znajdowanie N-tego minimum wartości Varchar w Oracle

  3. Oracle:Jak mogę określić literały znakowe w konwersjach TO_DATE?

  4. utwórz tabelę z sequence.nextval w oracle

  5. Dynamiczne przestawianie Oracle