Python中使用pypdf2合并、分割、加密pdf文件的代码详解
朋友需要对一个pdf文件进行分割,在网上查了查发现这个pypdf2可以完成这些操作,所以就研究了下这个库,并做一些记录。首先pypdf2是python3版本的,在之前的2版本有一个对应pypdf库。
可以使用pip直接安装:
pip install pypdf2
官方文档: pythonhosted.org/pypdf2/
里面主要有这几个类:
pdffilereader 。
该类主要提供了对pdf文件的读操作,其构造方法为:
pdffilereader(stream, strict=true, warndest=none, overwritewarnings=true)
第一个参数可以传入一个文件流,或者一个文件路径。后面三个参数都是用来设置警告的处理方式,直接使用默认的即可。
得到实例之后,就可以对pdf进行一些操作了。主要的有以下几个操作:
- decrypt(password):如果pdf文件加密的话,可以使用该方法对其解密。
- getdocumentinfo():检索pdf文件的一些信息。其返回值为一个documentinformation 类型,直接输出的话会得到类似下面的信息:
{'/moddate': "d:20150310202949-07'00'", '/title': '', '/creator': 'latex with hyperref package', '/creationdate': "d:20150310202949-07'00'", '/ptex.fullbanner': 'this is pdftex, version 3.14159265-2.6-1.40.15 (tex live 2014/macports 2014_6) kpathsea version 6.2.0', '/producer': 'pdftex-1.40.15', '/keywords': '', '/trapped': '/false', '/author': '', '/subject': ''}
- getnumpages():这个会pdf文件中的页数。
- getpage(pagenumber):会得到pdf文件中对应的pagenumber页数的页面对象,返回值为pageobject实例。在得到pageobject实例之后就可以将其加添、插入等操作。
- getpagenumber(page):与上面的方法对立,可以传入pageobject实例,然后得到该实例是pdf文件中第几页的。
- getoutlines(node=none, outlines=none):检索文档中出现的文档大纲。
- isencrypted:记录该pdf是否加密。如果文件本身加密,即使在使用解密decrypt方法之后,还是会返回true。
- numpages:pdf总共的页数,相当于访问getnumpages()的只读属性。
pdffilewriter 。
该类支持对pdf文件进行写操作,通常是使用pdffilereader读取一些pdf数据,然后使用该类进行一些操作。
创建该类的实例时不需要参数。
其主要的方法有:
- addattachment(fname, fdata):向pdf添加文件。
- addblankpage(width=none, height=none):给pdf添加一个空白页到最后,如果没有指定大小就使用当前weiter中pdf最后一页的大小。
- addpage(page):添加page到pdf中,通常这个page是由上面的reader获取的。
- appendpagesfromreader(reader, after_page_append=none):将reader中的数据拷贝到当前的writer实例中,并且如果指定after_page_append的话,最后还有回掉该函数并且将writer中的数据传入其中。
- encrypt(user_pwd, owner_pwd=none, use_128bit=true):将pdf进行加密,其中官方说userpwd是允许用户使用一些限制的权限打开pdf文件,也就是使用该密码的话可能会有一些限制,但是本人并没有在文档中找到设置权限的内容。而ownerpwd则是允许用户无限制的使用。第三个参数是是否使用128位加密。
- getnumpages():得到pdf页数。
- getpage(pagenumber):得到对应页数的page,是一个pageobject对象,可以使用上面的addpage方法将page进行添加。
- insertpage(page, index=0):将page添加到pdf中,index指定的是被插入的位置。
- write(stream):将该writer中的内容写入到文件中。
pdffilemerger。
该类用来合并pdf文件,该类的构造方法有一个参数:pdffilemerger(strict=true),注意这里的参数后面会介绍:
常用方法:
- addbookmark(title, pagenum, parent=none):给pdf添加一个书签,title是书签的标题,pagenum是该书签指向的页面。
- append(fileobj, bookmark=none, pages=none, import_bookmarks=true):将指定的fileobj文件添加到文件的末尾,bookmark是赎前,pages可以使用(start, stop[, step])或者一个 page range来设定将fileobj中的指定范围的页面进行添加。
- merge(position, fileobj, bookmark=none, pages=none, import_bookmarks=true):与append方法类似,不过可以使用position参数指定添加的位置。
- write(fileobj):将数据写入到文件中。
使用的时候可以创建一个pdffilemerger实例,然后使用append或者merge将想要融合的pdf文件依次添加进去,最后使用write保存即可。
def merge_pdf(): # 创建一个用来合并文件的实例 pdf_merger = pdffilemerger() # 首先添加一个week1_1.pdf文件 pdf_merger.append('week1_1.pdf') # 然后在第0页后面添加ex1.pdf文件 pdf_merger.merge(0, 'ex1.pdf') # 添加书签 pdf_merger.addbookmark('这是一个书签', 1) # 将其写入到文件中 pdf_merger.write('merge_pdf.pdf')
下面看一下pdffilemerger(strict=true)
中的这个参数:
官方对这个参数的解释:
strict (bool) – determines whether user should be warned of all problems and also causes some correctable problems to be fatal. defaults to true.
确定是否应该警告用户所有问题,并且还会导致一些可纠正的问题。
刚开始感觉这个参数就是用来是否警告用户一些错误的,直接使用默认即可,但是当本人尝试合并带中文的pdf时,出现了如下错误:
traceback (most recent call last): file "i:\python3.5\lib\site-packages\pypdf2\generic.py", line 484, in readfromstream return nameobject(name.decode('utf-8')) unicodedecodeerror: 'utf-8' codec can't decode byte 0xc8 in position 10: invalid continuation byte during handling of the above exception, another exception occurred: pypdf2.utils.pdfreaderror: illegal character in name object
在源码包中使用utf解码的时候出错了,尝试修改此处源码,让其使用gbk,但是还出现了其他的错误。最后发现当把构造函数中的strict设置为false时,控制台会打印下面的错误:
pdfreadwarning: illegal character in name object [generic.py:489]
但是两个文件成功的合并了,并且大概看了下合并后的文件有时好又是坏,同样的代码运行多次,有时候能够正常处理中文,但有时候中文乱码。
除了列出的方法还有一些其他的方法,比如添加书签、添加链接等等,可以参考官方文档。
对pdf进行合并、分割、加密。
整合出来了加密、解密、合并、根据页数进行分割、根据份数进行分割的样例:
使用注意:如果时中文文件,运行结果可能会出现乱码,但是多运行几次,中间有正常显示中文的问题。具体原因还不清楚,但就是这么玄学。。。
# @time : 2018/3/26 23:48 # @author : leafage # @file : handlepdf.py # @software: pycharm # @describe: 对pdf文件执行合并、分割、加密操作。 from pypdf2 import pdffilereader, pdffilemerger, pdffilewriter def get_reader(filename, password): try: old_file = open(filename, 'rb') except ioerror as err: print('文件打开失败!' + str(err)) return none # 创建读实例 pdf_reader = pdffilereader(old_file, strict=false) # 解密操作 if pdf_reader.isencrypted: if password is none: print('%s文件被加密,需要密码!' % filename) return none else: if pdf_reader.decrypt(password) != 1: print('%s密码不正确!' % filename) return none if old_file in locals(): old_file.close() return pdf_reader def encrypt_pdf(filename, new_password, old_password=none, encrypted_filename=none): """ 对filename所对应的文件进行加密,并生成一个新的文件 :param filename: 文件对应的路径 :param new_password: 对文件加密使用的密码 :param old_password: 如果旧文件进行了加密,需要密码 :param encrypted_filename: 加密之后的文件名,省却时使用filename_encrypted; :return: """ # 创建一个reader实例 pdf_reader = get_reader(filename, old_password) if pdf_reader is none: return # 创建一个写操作的实例 pdf_writer = pdffilewriter() # 从之前reader中将数据写入到writer中 pdf_writer.appendpagesfromreader(pdf_reader) # 重新使用新密码加密 pdf_writer.encrypt(new_password) if encrypted_filename is none: # 使用旧文件名 + encrypted 作为新的文件名 encrypted_filename = "".join(filename.split('.')[:-1]) + '_' + 'encrypted' + '.pdf' pdf_writer.write(open(encrypted_filename, 'wb')) def decrypt_pdf(filename, password, decrypted_filename=none): """ 将加密的文件及逆行解密,并生成一个无需密码pdf文件 :param filename: 原先加密的pdf文件 :param password: 对应的密码 :param decrypted_filename: 解密之后的文件名 :return: """ # 生成一个reader和writer pdf_reader = get_reader(filename, password) if pdf_reader is none: return if not pdf_reader.isencrypted: print('文件没有被加密,无需操作!') return pdf_writer = pdffilewriter() pdf_writer.appendpagesfromreader(pdf_reader) if decrypted_filename is none: decrypted_filename = "".join(filename.split('.')[:-1]) + '_' + 'decrypted' + '.pdf' # 写入新文件 pdf_writer.write(open(decrypted_filename, 'wb')) def split_by_pages(filename, pages, password=none): """ 将文件按照页数进行平均分割 :param filename: 所要分割的文件名 :param pages: 分割之后每个文件对应的页数 :param password: 如果文件加密,需要进行解密操作 :return: """ # 得到reader pdf_reader = get_reader(filename, password) if pdf_reader is none: return # 得到总的页数 pages_nums = pdf_reader.numpages if pages <= 1: print('每份文件必须大于1页!') return # 得到切分之后每个pdf文件的页数 pdf_num = pages_nums // pages + 1 if pages_nums % pages else int(pages_nums / pages) print('pdf文件被分为%d份,每份有%d页!' % (pdf_num, pages)) # 依次生成pdf文件 for cur_pdf_num in range(1, pdf_num + 1): # 创建一个新的写实例 pdf_writer = pdffilewriter() # 生成对应的文件名称 split_pdf_name = "".join(filename)[:-1] + '_' + str(cur_pdf_num) + '.pdf' # 计算出当前开始的位置 start = pages * (cur_pdf_num - 1) # 计算出结束的位置,如果是最后一份就直接返回最后的页数,否则用每份页数*已经分好的文件数 end = pages * cur_pdf_num if cur_pdf_num != pdf_num else pages_nums # print(str(start) + ',' + str(end)) # 依次读取对应的页数 for i in range(start, end): pdf_writer.addpage(pdf_reader.getpage(i)) # 写入文件 pdf_writer.write(open(split_pdf_name, 'wb')) def split_by_num(filename, nums, password=none): """ 将pdf文件分为nums份 :param filename: 文件名 :param nums: 要分成的份数 :param password: 如果需要解密,输入密码 :return: """ pdf_reader = get_reader(filename, password) if not pdf_reader: return if nums < 2: print('份数不能小于2!') return # 得到pdf的总页数 pages = pdf_reader.numpages if pages < nums: print('份数不应该大于pdf总页数!') return # 计算每份应该有多少页 each_pdf = pages // nums print('pdf共有%d页,分为%d份,每份有%d页!' % (pages, nums, each_pdf)) for num in range(1, nums + 1): pdf_writer = pdffilewriter() # 生成对应的文件名称 split_pdf_name = "".join(filename)[:-1] + '_' + str(num) + '.pdf' # 计算出当前开始的位置 start = each_pdf * (num - 1) # 计算出结束的位置,如果是最后一份就直接返回最后的页数,否则用每份页数*已经分好的文件数 end = each_pdf * num if num != nums else pages print(str(start) + ',' + str(end)) for i in range(start, end): pdf_writer.addpage(pdf_reader.getpage(i)) pdf_writer.write(open(split_pdf_name, 'wb')) def merger_pdf(filenames, merged_name, passwords=none): """ 传进来一个文件列表,将其依次融合起来 :param filenames: 文件列表 :param passwords: 对应的密码列表 :return: """ # 计算共有多少文件 filenums = len(filenames) # 注意需要使用false 参数 pdf_merger = pdffilemerger(false) for i in range(filenums): # 得到密码 if passwords is none: password = none else: password = passwords[i] pdf_reader = get_reader(filenames[i], password) if not pdf_reader: return # append默认添加到最后 pdf_merger.append(pdf_reader) pdf_merger.write(open(merged_name, 'wb')) def insert_pdf(pdf1, pdf2, insert_num, merged_name, password1=none, password2=none): """ 将pdf2全部文件插入到pdf1中第insert_num页 :param pdf1: pdf1文件名称 :param pdf2: pdf2文件名称 :param insert_num: 插入的页数 :param merged_name: 融合后的文件名称 :param password1: pdf1对应的密码 :param password2: pdf2对应的密码 :return: """ pdf1_reader = get_reader(pdf1, password1) pdf2_reader = get_reader(pdf2, password2) # 如果有一个打不开就返回 if not pdf1_reader or not pdf2_reader: return # 得到pdf1的总页数 pdf1_pages = pdf1_reader.numpages if insert_num < 0 or insert_num > pdf1_pages: print('插入位置异常,想要插入的页数为:%d,pdf1文件共有:%d页!' % (insert_num, pdf1_pages)) return # 注意需要使用false参数,可能会出现中文乱码的情况 m_pdf = pdffilemerger(false) m_pdf.append(pdf1) m_pdf.merge(insert_num, pdf2) m_pdf.write(open(merged_name, 'wb')) if __name__ == '__main__': # encrypt_pdf('ex1.pdf', 'leafage') # decrypt_pdf('ex1123_encrypted.pdf', 'leafage') # split_by_pages('ex1.pdf', 5) split_by_num('ex2.pdf', 3) # merger_pdf(['ex1.pdf', 'ex2.pdf'], 'merger.pdf') # insert_pdf('ex1.pdf', 'ex2.pdf', 10, 'pdf12.pdf')
总结
以上所述是小编给大家介绍的python中使用pypdf2合并、分割、加密pdf文件的代码详解,希望对大家有所帮助