Python读取文档
程序员文章站
2022-04-11 10:29:15
...
字符串在Python内部的表示是Unicode编码,首先我们来认识Python中encode()和decode()的作用与区别:
在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符解码(decode)成unicode,再从unicode编码(encode)成另一种编码。
decode的作用是将其他编码的字符转换成unicode编码,如str1,decode(‘gb2312’),表示将gb2312编码的字符串str1转换成unicode编码。
encode的作用是将unicode编码转换成其他编码的字符串,如str2,encode(‘gb2312’),表示将unicode编码的字符串str2转换成gb2312编码。
常见文档读取有:
- TXT
其中TXT文档的读取较为简单,爬取网页数据时注意read()的编码设置即可
我们主要来介绍使用pdfminer模块读取PDF
· 文档PDF的Python读取:
——英文PDF文件支持最好且只支持英文PDF是pyPDF2库
——而对于多语言PDF文件支持最好的则是pdfminer,我们这里就使用pdfminer3k库来实现读取PDF。
- 安装pdfminer3k:
——pip install pdfminer3k
——python setup.py install
- 验证安装pdfminer3k是否成功:
在cmd下,进入tools目录下( cd ~/Downloads/pdfminer3k-1.3.1/tools)后使用命令 ——python3 pdf2txt.py ../samples/simple1.pdf #..是退回上一层目录的意思
- Python读取PDF文档:
上一篇: 做生意什么项目好?五大项目推荐