Oracle
 sql >> Baza danych >  >> RDS >> Oracle

Jak można dowiedzieć się, jak sformatowany jest plik DBF lub dowolny inny plik?

Miałem podobny problem i tak to zrobiłem.

TL; DR:Musisz użyć Apache Tika do analizowania plików DBase. Konwertuje zawartość do tabeli XHTML i zwraca ją jako java.lang.String , który możesz przeanalizować za pomocą parsera DOM lub SAX, aby uzyskać dane w wymaganym formacie. Oto kilka przykładów:https://tika.apache.org/1.20/examples.html

Aby rozpocząć, dodaj następującą zależność Maven do POM:

<dependency>
  <groupId>org.apache.tika</groupId>
  <artifactId>tika-parsers</artifactId>
  <version>1.21</version>
</dependency>

Następnie zainicjuj parser:

Parser parser =  new DBFParser(); //Alternatively, you can use AutoDetectParser
ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler()); //This is tells the parser to produce an XHTML as an output.
parser.parse(dbaseInputStream, handler, new Metadata(), new ParseContext()); // Here, dbaseInputStream is a FileInputStream object for the DBase file.
String dbaseAsXhtml = handler.toString(); //This will have the content in XHTML format

Teraz, aby przekonwertować dane do wygodniejszego formatu (w tym przypadku CSV), wykonałem następujące czynności:

Najpierw przekonwertuj cały String na obiekt DOM:

DocumentBuilder builder = DocumentBuilderFactory.newInstance().newDocumentBuilder();
Document xhtmlDoc= builder.parse(new InputSource(new StringReader(xmlString.trim().replaceAll("\t", "")))); //I'm trimming out the tabs and whitespaces here, so that I don't have to dealt with them later

Teraz, aby uzyskać nagłówki:

XPath xPath = XPathFactory.newInstance().newXPath();
NodeList tableHeader = (NodeList)xPath.evaluate("//table/thead/th", xhtmlDoc, XPathConstants.NODESET);

String [] headers = new String[tableHeader.getLength()];
for(int i = 0; i < tableHeader.getLength(); i++) {
    headers[i] = tableHeader.item(i).getTextContent();
}

Następnie zapisy:

XPath xPath = XPathFactory.newInstance().newXPath();
NodeList tableRecords = (NodeList)xPath.evaluate("//table/tbody/tr", xhtmlDoc, XPathConstants.NODESET);

List<String[]> records = new ArrayList<String[]>(tableRecords.getLength());

for(int i = 0; i < tableRecords.getLength(); i++) {
    NodeList recordNodes = tableRecords.item(i).getChildNodes();
    String[] record = new String[recordNodes.getLength()];
    for(int j = 0; j < recordNodes.getLength(); j++)
        record[j] = recordNodes.item(j).getTextContent();
        records.add(record);
    }

Na koniec łączymy je w plik CSV:

StringBuilder dbaseCsvStringBuilder = new StringBuilder(String.join(",", headers) + "\n");
for(String[] record : records)
        dbaseCsvStringBuilder.append(String.join(",", record) + "\n");
String csvString = dbaseCsvStringBuilder.toString();

Oto kompletny kod źródłowy:https://github.com/Debojit/DbaseTranslater/blob/master/src/main/java/nom/side/poc/file/dbf/DbaseReader.java




  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Maskowanie liczb i nls_parameter

  2. Zależności Mavena nie rozwiązane w Eclipse

  3. Entity Framework i Oracle

  4. Webrick bardzo wolno odpowiada. Jak to przyspieszyć?

  5. Jak napisać procedurę składowaną, która dodaje kolumnę do kursora ref z innej procedury składowanej?