绿色版PDF-XChange Viewer中文OCR功能

程序员文章站 2022-07-13 21:10:13

...

什么是OCR？

维基中文

引用

光学字符识别（英语：Optical Character Recognition，OCR）
是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。、

功能需求

阅读扫描版PDF书籍，希望将部分图片文字内容，转换为可复制粘贴的文本文字数据。

软件下载

PDF-XChange Viewer （version: 2.5.322.9）

安装版OCR功能

参考博客：PDF-XChange Viewer 的 OCR 功能

Editor & Viewer OCR Language Files（Last update: March 21, 2016）下载并安装：

OCRBaseLangPack.exe

OCRAdditionalLangsCHI.exe

注：

安装版Viewer安装路径需保持于Tracker Software父文件夹下，即Tracker Software\PDF Viewer，如变更安装目录，不在父文件夹Tracker Software下，再安装以上2个exe会无效。

绿色版OCR功能

将PDF Viewer安装目录下的ocrdats文件夹copy至绿色版viewer根目录下，即可使用。

绿色版PDF-XChange Viewer中文OCR功能

博客分类： software pdfOCRxchangesoftwareportable

保存ocrdats文件夹到网盘(提取码: cutr)，绿色版直接下载即可，包含英/法/德/西/中简繁6语言包。

XChange OCR功能使用

官网：How do I OCR documents in PDF-XChange Editor and PDF-XChange Viewer?

菜单 - 文档 - 识别页面（Ctrl + Shift + C)

选择页面范围

主语言：Chinese(Simplified)

精度：（中）默认

PDF输出类型：保留原内容&添加文字层（ Preserve Original Content & Add Text Layer ）

【附另一个PDF输出类型：

仅转换内容为图像-添加文字层（Convert Page Content to Image only - Add Text As a Layer）

谷歌翻译：

选择“将页面内容转换为仅图像” - “将文本添加为图层”可将包含图像和文本的文档转换为单个合并图像。如果选择此选项，则使用“图像质量”下拉菜单确定所创建图像的dpi（每英寸点数）的分辨率。注：如果此模式用于仅图像文档，则唯一的更改将是图像的分辨率（当初始dpi与图像质量下拉菜单中指定的dpi不同时 - 否则不会发生更改）。请注意，此过程的输出文档将替换输入文档。如果随后需要原始格式的输入文档，则应在执行此过程之前进行复制。

似乎是将文本内容变为图像，将文本层放在上层，目前用不到。】