PyPDF2中文配置

程序员文章站 2022-05-25 19:02:27

...

目录标题

PyPDF2 中文设置
- - 快速方法：（覆盖文件）
  - 自定义：（自己修改配置文件）

PyPDF2 中文设置

PyPDF2 默认是 Latin-1 编码的，当处理中文文档的时候就会报错。

本文内容 Linux 与 Windows 通用 已测试

快速方法：（覆盖文件）

配置文件下载
将下载的 generic.py 和 utils.py复制到目录...\site-packages\PyPDF2下即可

自定义：（自己修改配置文件）

将 utils.py 244行开始到247行的内容：

 r = s.encode('latin-1')
 if len(s) < 2:
   		bc[s] = r
 return r

修改为

r = s.encode('utf-8')
if len(s) < 2:
    bc[s] = r
    return r

将 generic.py 483行开始到492行的内容

try:
   return NameObject(name.decode('utf-8'))
except (UnicodeEncodeError, UnicodeDecodeError) as e:
   # Name objects should represent irregular characters
   # with a '#' followed by the symbol's hex number
   if not pdf.strict:
      warnings.warn("Illegal character in Name Object", utils.PdfReadWarning)
      return NameObject(name)
   else:
      raise utils.PdfReadError("Illegal character in Name Object")

修改为

try:
	return NameObject(name.decode('utf-8'))
except (UnicodeEncodeError, UnicodeDecodeError) as e:
	try:
		return NameObject(name.decode('gbk'))
	except (UnicodeEncodeError, UnicodeDecodeError) as e:
		# Name objects should represent irregular characters
		# with a '#' followed by the symbol's hex number
		if not pdf.strict:
			warnings.warn("Illegal character in Name Object", utils.PdfReadWarning)
			return NameObject(name)
		else:
			raise utils.PdfReadError("Illegal character in Name Object")

文章内容结束，以上内容在2020年9月14日 Windows 与 Linux 平台下均测试通过

PyPDF2中文配置

目录标题

PyPDF2 中文设置

快速方法：（覆盖文件）

自定义：（自己修改配置文件）

中文自然语言处理入门实战

Linux系统配置（系统优化）

真我GTNEO3电竞版怎么样?真我GTNEO3电竞版参数配置介绍

非Oralce用户环境变量配置

phpmyadmin报错原因及解决办法：无法在发生异常时创建会话，请检查 PHP 或网站服务器日志，并正确配置 PHP 安装

php数组中包含中文的排序方法_PHP

php在apache环境下实现gzip配置方法_PHP

探讨fckeditor在Php中的配置详解_PHP教程

Linux下nginx相关配置

PHP统计目录中文件数量以及目录中目录大小的方法