欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

爬取深圳证券交易所官网中“万科”相关公告的标题和网址,批量下载深圳证券交易所官网中“万科”相关公告的PDF文件。

程序员文章站 2022-05-02 22:02:59
...

1 需求

爬取深圳证券交易所官网中“万科”相关公告的标题和网址,批量下载深圳证券交易所官网中“万科”相关公告的PDF文件。

2 代码实现

import re
import time

import requests
from selenium import webdriver


chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
browser = webdriver.Chrome(options=chrome_options)

# 获取网页源代码
url = 'http://www.szse.cn/application/search/index.html?keyword=万科&r=1629286405260'
browser.get(url=url)
time.sleep(3)
data = browser.page_source

# 获取网页标题
p_title = '<span class="keyword">(.*?)</a>'
title = re.findall(p_title, data)

# 获取网页网址
p_href = '<a class="text ellipsis pdf" href="(.*?)" target="_blank"'
href = re.findall(p_href, data)

# 批量下载
for index in range(len(href)):
    title[index] = re.sub('<.*?>', '', title[index])
    res = requests.get(href[index])
    path = '问询函\\' + title[index] + '.pdf'
    file = open(path, 'wb')
    file.write(res.content)
    file.close()
    print("第" + str(index + 1) + "号文件下载成功!")