欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

pdfbox读取pdf文本内容

程序员文章站 2022-03-11 09:21:53
PDF文本内容读取这次做的功能中需要把pdf中的文本内容读取出来,开始也是不会做。后来在网上找了很多帖子进行了一些小小的研究后才决定用pdfbox和itextpdf这两种技术来实现这个功能,在此记录自己探索中的一些问题,希望有大神指教!maven坐标如下: org.apache.pdfbox pdfbox

PDF文本内容读取

这次做的功能中需要把pdf中的文本内容读取出来,开始也是不会做。后来在网上找了很多帖子进行了一些小小的研究后才决定用pdfbox来
实现这个功能,在此记录自己探索中的一些问题,希望有大神指教!

maven坐标如下:

    <dependency>
      <groupId>org.apache.pdfbox</groupId>
      <artifactId>pdfbox</artifactId>
      <version>1.8.8</version>
    </dependency>
    <dependency>
      <groupId>org.apache.pdfbox</groupId>
      <artifactId>fontbox</artifactId>
      <version>1.8.8</version>
    </dependency>
pdfbox与fontbox的版本不一致、或者没有引入fontbox的坐标会出现以下错误:
	Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/fontbox/afm/AFMPaeser

读取本地文件(复杂版–实用):

public static void main(String[] args) throws Exception {
        try {
            File file = new File("本地文件路径");
            //一般在后端代码中获取到是inputStream,所以第一步是 可以省略的
            InputStream inputStream = new FileInputStream(file);
            //老版本(例如:1.8.8)的不用进行强转,新版本(例如:2.0.8)的需要
            //加载pdf文档
            PDFParser parser = new PDFParser((RandomAccessRead) inputStream);
            /**
             * 缺少这句会报:
             * Exception in thread "main" java.io.IOException:
             * You must call paser() before calling getDocument
             */
            parser.parse();
            PDDocument pdDocument = parser.getPDDocument();
            //获取总页码
            int pages = pdDocument.getNumberOfPages();
            //读取文本内容
            PDFTextStripper stripper = new PDFTextStripper();
            //设置输出顺序(是否排序)
            stripper.setSortByPosition(true);
            stripper.setStartPage(1);
            stripper.setEndPage(pages);
            //文本内容
            String text = stripper.getText(pdDocument);
            System.out.println(text);
            //关闭资源
            pdDocument.close();
        } catch (InvalidPasswordException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

读取本地文件(简单版–鸡肋):

    public static void main(String[] args) {
        PDDocument pdDocument =null;
        try {
        	//获取pdf文档
            pdDocument = PDDocument.load(new File("文件路径"))//获取总页码
            int pages = pdDocument.getNumberOfPages();
            //获取文本内容
            PDFTextStripper stripper = new PDFTextStripper();
            //设置输出顺序(是否排序)
            stripper.setSortByPosition(true);
            stripper.setStartPage(1);
            stripper.setEndPage(pages);
            System.out.println(stripper.getText(pdDocument));
            //关闭资源是个好习惯
            pdDocument.close();
        }catch (IOException e){
            e.printStackTrace();
        }
    }

总结:

	pdf读取文档内容暂时就介绍到这里了,研究的只是用在开发这个功能上,肯定存在不足,jar包找不到的话可以留言我上传!

本文地址:https://blog.csdn.net/weixin_45949103/article/details/110449681

相关标签: 技术 java