PDFTOHTML Linux pdf转换为html工具
程序员文章站
2022-04-09 21:41:44
...
PDFTOHTML(1)通用命令手册PDFTOHTML(1)
名称
pdftohtml-将PDF文件转换为HTML,XML和PNG图像的程序
概要
pdftohtml [options] <PDF-file> [<HTML-file> <XML-file>]
描述
本手册页简要介绍了pdftohtml命令。该手册页是为Debian GNU / Linux发行版编写的,因为原始程序没有手册页。
pdftohtml是将PDF文档转换为HTML的程序。它在当前工作目录中生成其输出。
选项
选项摘要如下。
-h, -help
显示选项摘要。
-f <int>
要打印的第一页
-l <int>
最后一页打印
-q不打印任何消息或错误
-v打印版权和版本信息
-p与.html交换.pdf链接
-c生成复杂的输出
-s生成包含所有页面的单个HTML
-i忽略图像
-noframes
不生成任何帧。在复杂输出模式下不支持。
-stdout
使用标准输出
-zoom <fp>
缩放PDF文档(默认为1.5)
-xml输出以进行XML后处理
-noRoundedCoordinates
不舍入坐标(仅具有XML输出)
-enc <string>
输出文本编码名称
-opw <string>
所有者密码(用于加密文件)
-upw <string>
用户密码(用于加密文件)
-hidden
强制隐藏文本提取
-fmt用于Splash输出的图像文件格式(png或jpg)。如果选择复杂,但未指定-fmt,则将假定-fmt png
-nomerge
不要合并段落
-nodrm覆盖文档DRM设置
-wbt <fp>
调整分词阈值百分比。默认值为10。当两个相邻字符之间的距离大于此字符高度的百分比时,将发生断字。
-fontfullname
输出字体名称,不进行任何替换。
作者
Pdftohtml由Gueorgui Ovtcharov和Rainer Dorsch开发。它基于Derek Noonburg的xpdf软件包,从中受益匪浅。
该手册页由SørenBoll Overgaard <[email protected]>编写,用于Debian GNU / Linux系统(但可能被其他人使用)。
也可以看看
pdfdetach(1),pdffonts(1),pdfimages(1),pdfinfo(1),pdftocairo(1),pdftoppm(1),pdftops(1),pdftotext(1)pdfseparate(1),pdfsig(1),pdfunite (1)
PDFTOHTML(1)