Java 将PDF转为HTML时保存到流的方法和步骤

程序员文章站 2022-03-04 12:42:45

本文介绍如何通过java后端程序代码将pdf文件转为html，并将转换后的html文件保存到流。在实现转换时，可设置相关转换属性，如：是否嵌入svg、是否嵌入图片等。下面是实现转换的方法和步骤：1....

本文介绍如何通过java后端程序代码将pdf文件转为html，并将转换后的html文件保存到流。在实现转换时，可设置相关转换属性，如：是否嵌入svg、是否嵌入图片等。下面是实现转换的方法和步骤：

1. 导入jar包

本次转换的方法通过导入free spire.pdf for java中的spire.pdf.jar免费jar来实现。可按照如下两种方法中的任意一种导入jar：

方法1：从maven仓库中导入。在pom.xml中配置如下内容：

<repositories>
        <repository>
            <id>com.e-iceblue</id>
            <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
        </repository>
    </repositories>
<dependencies>
    <dependency>
        <groupid>e-iceblue</groupid>
        <artifactid>spire.pdf.free</artifactid>
        <version>4.4.1</version>
    </dependency>
</dependencies>

方法2：下载 jar包到本地，解压，找到lib文件夹下的spire.pdf.jar文件。然后执行如下图步骤完成导入：

Java 将PDF转为HTML时保存到流的方法和步骤

2. java代码

将pdf转换为html时，主要通过以下步骤中的类及方法实现：

实例化pdfdocument类的对象，并通过pdfdocument.loadfromfile(string filename)方法加载pdf文档
pdfdocument. getconvertoptions().setpdftohtmloptions(boolean useembeddesvg, boolean useembeddeimg)方法设置转换为html格式时的相关转换属性。
pdfdocument.savetostream(outputstream stream, fileformate format)方法转换成html时保存到流。

java

import com.spire.pdf.*;

import java.io.file;
import java.io.filenotfoundexception;
import java.io.fileoutputstream;
import java.io.outputstream;
public class savetostream {
    public static void main(string[] args) throws filenotfoundexception {
        //加载pdf文档
        pdfdocument pdf = new pdfdocument();
        pdf.loadfromfile("咖啡豆.pdf");
        //设置useembeddedsvg和 useembeddedimg布尔值为true
        pdf.getconvertoptions().setpdftohtmloptions(true,true);
        //保存到流
        file outfile = new file("tohtml.html");
        outputstream outputstream = new fileoutputstream(outfile);
        pdf.savetostream(outputstream, fileformat.html);
        pdf.close();
    }
}

3. 执行代码后，生成html文件。

Java 将PDF转为HTML时保存到流的方法和步骤

到此这篇关于java 将pdf转为html时保存到流的文章就介绍到这了,更多相关java pdf转为html内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！