欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

PDFTOHTML Linux pdf转换为html工具

程序员文章站 2022-04-09 21:41:44
...

PDFTOHTML(1)通用命令手册PDFTOHTML(1)

名称
pdftohtml-将PDF文件转换为HTML,XML和PNG图像的程序

概要

pdftohtml [options] <PDF-file> [<HTML-file> <XML-file>]

描述
本手册页简要介绍了pdftohtml命令。该手册页是为Debian GNU / Linux发行版编写的,因为原始程序没有手册页。

   pdftohtml是将PDF文档转换为HTML的程序。它在当前工作目录中生成其输出。

选项
选项摘要如下。

   -h, -help
          显示选项摘要。

   -f <int>
          要打印的第一页

   -l <int>
          最后一页打印

   -q不打印任何消息或错误

   -v打印版权和版本信息

   -p与.html交换.pdf链接

   -c生成复杂的输出

   -s生成包含所有页面的单个HTML

   -i忽略图像

   -noframes
          不生成任何帧。在复杂输出模式下不支持。

   -stdout
          使用标准输出

   -zoom <fp>
          缩放PDF文档(默认为1.5)

   -xml输出以进行XML后处理

   -noRoundedCoordinates
          不舍入坐标(仅具有XML输出)

   -enc <string>
          输出文本编码名称

   -opw <string>
          所有者密码(用于加密文件)

   -upw <string>
          用户密码(用于加密文件)

   -hidden
          强制隐藏文本提取

   -fmt用于Splash输出的图像文件格式(png或jpg)。如果选择复杂,但未指定-fmt,则将假定-fmt png

   -nomerge
          不要合并段落

   -nodrm覆盖文档DRM设置

   -wbt <fp>
          调整分词阈值百分比。默认值为10。当两个相邻字符之间的距离大于此字符高度的百分比时,将发生断字。

   -fontfullname
          输出字体名称,不进行任何替换。

作者
Pdftohtml由Gueorgui Ovtcharov和Rainer Dorsch开发。它基于Derek Noonburg的xpdf软件包,从中受益匪浅。

   该手册页由SørenBoll Overgaard <[email protected]>编写,用于Debian GNU / Linux系统(但可能被其他人使用)。

也可以看看
pdfdetach(1),pdffonts(1),pdfimages(1),pdfinfo(1),pdftocairo(1),pdftoppm(1),pdftops(1),pdftotext(1)pdfseparate(1),pdfsig(1),pdfunite (1)

                                                                                          PDFTOHTML(1)