pdfbox读取pdf文本内容

程序员文章站 2022-06-23 11:17:46

PDF文本内容读取这次做的功能中需要把pdf中的文本内容读取出来，开始也是不会做。后来在网上找了很多帖子进行了一些小小的研究后才决定用pdfbox和itextpdf这两种技术来实现这个功能，在此记录自己探索中的一些问题，希望有大神指教！maven坐标如下： org.apache.pdfbox pdfbox

PDF文本内容读取

这次做的功能中需要把pdf中的文本内容读取出来，开始也是不会做。后来在网上找了很多帖子进行了一些小小的研究后才决定用pdfbox来
实现这个功能，在此记录自己探索中的一些问题，希望有大神指教！

maven坐标如下：

    <dependency>
      <groupId>org.apache.pdfbox</groupId>
      <artifactId>pdfbox</artifactId>
      <version>1.8.8</version>
    </dependency>
    <dependency>
      <groupId>org.apache.pdfbox</groupId>
      <artifactId>fontbox</artifactId>
      <version>1.8.8</version>
    </dependency>

pdfbox与fontbox的版本不一致、或者没有引入fontbox的坐标会出现以下错误：
	Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/fontbox/afm/AFMPaeser

读取本地文件（复杂版–实用）：

public static void main(String[] args) throws Exception {
        try {
            File file = new File("本地文件路径");
            //一般在后端代码中获取到是inputStream，所以第一步是 可以省略的
            InputStream inputStream = new FileInputStream(file);
            //老版本（例如：1.8.8）的不用进行强转，新版本（例如：2.0.8）的需要
            //加载pdf文档
            PDFParser parser = new PDFParser((RandomAccessRead) inputStream);
            /**
             * 缺少这句会报：
             * Exception in thread "main" java.io.IOException:
             * You must call paser() before calling getDocument
             */
            parser.parse();
            PDDocument pdDocument = parser.getPDDocument();
            //获取总页码
            int pages = pdDocument.getNumberOfPages();
            //读取文本内容
            PDFTextStripper stripper = new PDFTextStripper();
            //设置输出顺序（是否排序）
            stripper.setSortByPosition(true);
            stripper.setStartPage(1);
            stripper.setEndPage(pages);
            //文本内容
            String text = stripper.getText(pdDocument);
            System.out.println(text);
            //关闭资源
            pdDocument.close();
        } catch (InvalidPasswordException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

读取本地文件（简单版–鸡肋）：

    public static void main(String[] args) {
        PDDocument pdDocument =null;
        try {
        	//获取pdf文档
            pdDocument = PDDocument.load(new File("文件路径"))；
            //获取总页码
            int pages = pdDocument.getNumberOfPages();
            //获取文本内容
            PDFTextStripper stripper = new PDFTextStripper();
            //设置输出顺序（是否排序）
            stripper.setSortByPosition(true);
            stripper.setStartPage(1);
            stripper.setEndPage(pages);
            System.out.println(stripper.getText(pdDocument));
            //关闭资源是个好习惯
            pdDocument.close();
        }catch (IOException e){
            e.printStackTrace();
        }
    }

总结：

	pdf读取文档内容暂时就介绍到这里了，研究的只是用在开发这个功能上，肯定存在不足，jar包找不到的话可以留言我上传！

本文地址：https://blog.csdn.net/weixin_45949103/article/details/110449681

pdfbox读取pdf文本内容

PDF文本内容读取

(转)java Springboot富文本编辑器ueditor的内容使用itext5导出为pdf文件

Java 读取文本指定的某一行内容的方法

java读取pdf文件内容（java获取pdf内容带格式）

java读取pdf文件内容（java获取pdf内容带格式）

JAVA读取文本文件内容实例代码

Python解析并读取PDF文件内容的方法

Windows系统中使用C#读取文本文件内容的小示例

PowerShell读取文本文件指定行内容的方法

如何读取文本文件的内容？

怎样读取一个文本文件的内容?