欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python读取文档

程序员文章站 2022-04-11 10:29:15
...

字符串在Python内部的表示是Unicode编码,首先我们来认识Python中encode()和decode()的作用与区别:

在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符转换成unicode编码,如str1,decode(‘gb2312’),表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串,如str2,encode(‘gb2312’),表示将unicode编码的字符串str2转换成gb2312编码。

常见文档读取有:

  1. TXT
  2. PDF

其中TXT文档的读取较为简单,爬取网页数据时注意read()的编码设置即可

我们主要来介绍使用pdfminer模块读取PDF

· 文档PDF的Python读取:

——英文PDF文件支持最好且只支持英文PDF是pyPDF2库
——而对于多语言PDF文件支持最好的则是pdfminer,我们这里就使用pdfminer3k库来实现读取PDF。

  1. 安装pdfminer3k:
——pip install pdfminer3k
——python setup.py install
  1. 验证安装pdfminer3k是否成功:
在cmd下,进入tools目录下( cd ~/Downloads/pdfminer3k-1.3.1/tools)后使用命令 ——python3 pdf2txt.py ../samples/simple1.pdf        #..是退回上一层目录的意思
  1. Python读取PDF文档: