Python批量提取PDF文件中文本的脚本

程序员文章站 2022-05-16 12:52:55

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码，供大家参考，具体内容如下首先需要执行命令pip install pdfminer3k来安装处理PDF...

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码，供大家参考，具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间，一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本，前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源：python小屋

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

上一篇： ai怎么画简笔画小铃铛? ai铃铛的画法

下一篇： p5.js入门教程之小球动画示例代码

Python批量提取PDF文件中文本的脚本

Python批量修改文本文件内容的方法

Python使用reportlab将目录下所有的文本文件打印成pdf的方法

实例讲解Python脚本成为Windows中运行的exe文件

比较好用用的pdf转txt文本文件图片文字提取工具使用介绍

python中合并两个文本文件并按照姓名首字母排序的例子

python实现从pdf文件中提取文本,并自动翻译的方法

linux中批量修改文件名的脚本代码

Office Word文件中的图片一秒批量提取到media文件夹中

python脚本实现统计日志文件中的ip访问次数代码分享

Python将文本去空格并保存到txt文件中的实例

Python批量提取PDF文件中文本的脚本

Python批量修改文本文件内容的方法

Python使用reportlab将目录下所有的文本文件打印成pdf的方法

实例讲解Python脚本成为Windows中运行的exe文件

比较好用用的pdf转txt文本文件 图片文字提取工具使用介绍

python中合并两个文本文件并按照姓名首字母排序的例子

python实现从pdf文件中提取文本,并自动翻译的方法

linux中批量修改文件名的脚本代码

Office Word文件中的图片一秒批量提取到media文件夹中

python脚本实现统计日志文件中的ip访问次数代码分享

Python将文本去空格并保存到txt文件中的实例

比较好用用的pdf转txt文本文件图片文字提取工具使用介绍