python读取pdf文件并转换成txt文件

程序员文章站 2022-04-10 16:56:47

...

将pdf文件转换成txt文件

中英文pdf都可以，而且处理速度很快，一秒可以处理10页左右
python2：

pip install pdfminer

python3:

pip install pdfminer3k

pdf2txt.py

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

pdf_filename = "1.pdf"
txt_filename = "out.txt"

device = PDFPageAggregator(PDFResourceManager(), laparams=LAParams())
interpreter = PDFPageInterpreter(PDFResourceManager(), device)

doc = PDFDocument()
parser = PDFParser(open(pdf_filename, 'rb'))
parser.set_document(doc)
doc.set_parser(parser)
doc.initialize()

# 检测文档是否提供txt转换，不提供就忽略
if not doc.is_extractable:
    raise PDFTextExtractionNotAllowed
else:
    with open(txt_filename, 'w', encoding="utf-8") as fw:
        print("num page:{}".format(len(list(doc.get_pages()))))
        for page in doc.get_pages():
            interpreter.process_page(page)
            # 接受该页面的LTPage对象
            layout = device.get_result()
            # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象
            # 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等
            # 想要获取文本就获得对象的text属性，
            for x in layout:
                if isinstance(x, LTTextBoxHorizontal):
                    results = x.get_text()
                    fw.write(results)

python读取pdf文件并转换成txt文件

将pdf文件转换成txt文件

Python读取mat文件,并转为csv文件的实例

Python解析并读取PDF文件内容的方法

对python .txt文件读取及数据处理方法总结

Python实现读取目录所有文件的文件名并保存到txt文件代码

python实现pdf转换成word/txt纯文本文件

使用python读取txt文件的内容,并删除重复的行数方法

python读取txt文件,去掉空格计算每行长度的方法

python读取txt文件中特定位置字符的方法

如何将PDF文件转换成txt？ PDF转换成txt图文教程

python将文件夹下csv文件转换成txt文件