Python爬虫之爬取某文库文档数据

程序员文章站 2022-03-17 22:41:06

一、基本开发环境python 3.6pycharm二、相关模块的使用import osimport requestsimport timeimport reimport jsonfrom docx i...

一、基本开发环境

python 3.6

pycharm

二、相关模块的使用

import os
import requests
import time
import re
import json
from docx import document
from docx.shared import cm

安装python并添加到环境变量，pip安装需要的相关模块即可。

三、目标网页分析

Python爬虫之爬取某文库文档数据

网站的文档内容，都是以图片形式存在的。它有自己的数据接口

接口链接：

https://openapi.book118.com/getpreview.html?&project_id=1&aid=272112230&t=f2c66902d6b63726d8e08b557fef90fb&view_token=sqx7ktrz_zakjdi@vcohccwbn_plb3c1&page=1&callback=jquery18304186406662159248_1614492889385&_=1614492889486

接口的请求参数

Python爬虫之爬取某文库文档数据

四、整体思路

请求网页返回response数据（字符串）
通过re模块匹配提取中间的数据（列表）索引取0（字符串）
通过json模块是把提取出来的数据转换成json模块
通过遍历获取每张图片的url地址
保存图片到本地文件夹
把图片保存到word文档
爬虫代码实现

五、爬虫代码实现

def download():
    content = 0
    for page in range(1, 96, 6):
        # 给定 2秒延时
        time.sleep(2)
        # 获取时间戳
        now_time = int(time.time() * 1000)
        url = 'https://openapi.book118.com/getpreview.html'
        # 请求参数
        params = {
            'project_id': '1',
            'aid': '272112230',
            't': 'f2c66902d6b63726d8e08b557fef90fb',
            'view_token': 'sqx7ktrz_zakjdi@vcohccwbn_plb3c1',
            'page': f'{page}',
            '_': now_time,
        }
        # 请求头
        headers = {
            'host': 'openapi.book118.com',
            'referer': 'https://max.book118.com/html/2020/0427/8026036013002110.shtm',
            'user-agent': 'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/81.0.4044.138 safari/537.36'
        }
        response = requests.get(url=url, params=params, headers=headers)
        # 使用正则表达式提取内容
        result = re.findall('jsonpreturn\((.*?)\)', response.text)[0]
        # 字符串转json数据
        json_data = json.loads(result)['data']
        # 字典值的遍历
        for value in json_data.values():
            content += 1
            # 拼接图片url
            img_url = 'http:' + value
            print(img_url)
            headers_1 = {
                'host': 'view-cache.book118.com',
                'user-agent': 'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/81.0.4044.138 safari/537.36'
            }
            # 请求图片url地址 获取content二进制数据
            img_content = requests.get(url=img_url, headers=headers_1).content
            # 文件名
            img_name = str(content) + '.jpg'
            # 保存路径
            filename = 'img\\'
            # 以二进制方式保存 （图片、音频、视频等文件都是以二进制的方式保存）
            with open(filename + img_name, mode='wb') as f:
                f.write(img_content)

注意点：

1、一定要给延时，不然后面接口数据会请求不到。

2、请求图片url的时候headers参数需要写完整，否则保存图片是无法打开的

3、命名最好是给定数字，1.jpg、2.jpg 这样，方便后续保存到word

爬虫部分的代码还是比较简单的，没有什么特别的难度。

爬取这些文档，都是需要打印或者查询所以要把这些单张的图片都保存到word文档里面。

六、写入文档

def save_picture():
    document = document()
    path = './img/'
    lis = os.listdir(path)
    c = []
    for li in lis:
        index = li.replace('.jpg', '')
        c.append(index)
    c_1 = sorted(list(map(int, c)))
    print(c_1)
    new_files = [(str(i) + '.jpg') for i in c_1]
    for num in new_files:
        img_path = path + num
        document.add_picture(img_path, width=cm(17), height=cm(24))
        document.save('tu.doc')  # 保存文档
        os.remove(img_path)  # 删除保存在本地的图片

到此这篇关于python爬虫之爬取某文库文档数据的文章就介绍到这了,更多相关python爬取文档数据内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

相关标签： python 爬取文档数据

上一篇： ps如何把文字拆开通过ps拆解文字的方法

下一篇：我出去回来就迷路了

Python爬虫之爬取某文库文档数据

一、基本开发环境

二、相关模块的使用

三、目标网页分析

四、整体思路

五、爬虫代码实现

六、写入文档

python爬虫爬取奇书阁首页分类小说数据

PHP爬虫之百万级别知乎用户数据爬取与分析

网易云歌单信息爬取及数据分析（python爬虫）

Python爬取租房数据实例，据说可以入门爬虫的小案例！

python爬虫抖某音爬取视频 Airtest+fiddler

Python爬虫将爬取的图片写入world文档的方法

python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]

[python爬虫]爬取英雄联盟所有英雄数据并下载所有英雄皮肤

荐 Python爬虫：基于Scrapy爬取京东商品数据并保存到mysql且下载商品图片

Python爬虫之简单的爬取百度贴吧数据