详解JAVA读取PDF、WORD文档的方法

程序员文章站 2022-03-31 22:22:10

...

本篇文章主要通过实例代码介绍了JAVA读取PDF、WORD文档，需要的朋友可以参考下

读取PDF文件jar引用

<dependency>
  <groupid>org.apache.pdfbox</groupid>
  pdfbox</artifactid>
  <version>1.8.13</version>
</dependency>

读取WORD文件jar引用

<dependency>
  <groupid>org.apache.poi</groupid>
  poi-scratchpad</artifactid>
  <version>3.16-beta1</version>
</dependency>
<dependency>
  <groupid>org.apache.poi</groupid>
  poi</artifactid>
  <version>3.16-beta1</version>
</dependency>

读取WORD文件方法

/**
   * 
   * @Title: getTextFromWord
   * @Description: 读取word
   * @param filePath
   *      文件路径
   * @return: String 读出的Word的内容
   */
  public static String getTextFromWord(String filePath) {
    String result = null;
    File file = new File(filePath);
    FileInputStream fis = null;
    try {
      fis = new FileInputStream(file);
      @SuppressWarnings("resource")
      WordExtractor wordExtractor = new WordExtractor(fis);
      result = wordExtractor.getText();
    } catch (FileNotFoundException e) {
      e.printStackTrace();
    } catch (IOException e) {
      e.printStackTrace();
    } finally {
      if (fis != null) {
        try {
          fis.close();
        } catch (IOException e) {
          e.printStackTrace();
        }
      }
    }
    return result;
  }

读取PDF文件方法

/**
 * 
 * @Title: getTextFromPdf
 * @Description: 读取pdf文件内容
 * @param filePath
 * @return: 读出的pdf的内容
 */
public static String getTextFromPdf(String filePath) {
  String result = null;
  FileInputStream is = null;
  PDDocument document = null;
  try {
    is = new FileInputStream(filePath);
    PDFParser parser = new PDFParser(is);
    parser.parse();
    document = parser.getPDDocument();
    PDFTextStripper stripper = new PDFTextStripper();
    result = stripper.getText(document);
  } catch (FileNotFoundException e) {
    e.printStackTrace();
  } catch (IOException e) {
    e.printStackTrace();
  } finally {
    if (is != null) {
      try {
        is.close();
      } catch (IOException e) {
        e.printStackTrace();
      }
    }
    if (document != null) {
      try {
        document.close();
      } catch (IOException e) {
        e.printStackTrace();
      }
    }
  }
  return result;
}

以上就是详解JAVA读取PDF、WORD文档的方法的详细内容，更多请关注其它相关文章！

相关标签： JAVA，读取PDF、WORD文档

上一篇： js中的正则表达式如何使用(附代码)

下一篇：使用正则验证用户输入的银行卡号（附代码）

详解JAVA读取PDF、WORD文档的方法

Java 在 Word 文档中使用新文本替换指定文本的方法

将PDF的文档放在Word文档中并将其打印的可行方法

怎么把PDF文档转换成能编辑的word文档有哪些方法

pdf文档如何转换成Word文档使用iSkysoft PDF Editor将PDF转换为Word的方法

如何将PDF转换成Word文档的方法总结

使用PHPWord生成word文档的方法详解

极强PDF转换器将Word文档转换成Excel文档的方法介绍

Java在线打开word文档并强制留痕的方法

C#编程读取文档Doc、Docx及Pdf内容的方法

python读取word文档的方法

详解JAVA读取PDF、WORD文档的方法

Java 在 Word 文档中使用新文本替换指定文本的方法

将PDF的文档放在Word文档中并将其打印的可行方法

怎么把PDF文档转换成能编辑的word文档有哪些方法

pdf文档如何转换成Word文档 使用iSkysoft PDF Editor将PDF转换为Word的方法

如何将PDF转换成Word文档的方法总结

使用PHPWord生成word文档的方法详解

极强PDF转换器将Word文档转换成Excel文档的方法介绍

Java在线打开word文档并强制留痕的方法

C#编程读取文档Doc、Docx及Pdf内容的方法

python读取word文档的方法

pdf文档如何转换成Word文档使用iSkysoft PDF Editor将PDF转换为Word的方法