爬取深圳证券交易所官网中“万科”相关公告的标题和网址,批量下载深圳证券交易所官网中“万科”相关公告的PDF文件。
程序员文章站
2022-05-02 22:02:59
...
1 需求
爬取深圳证券交易所官网中“万科”相关公告的标题和网址,批量下载深圳证券交易所官网中“万科”相关公告的PDF文件。
2 代码实现
import re
import time
import requests
from selenium import webdriver
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
browser = webdriver.Chrome(options=chrome_options)
# 获取网页源代码
url = 'http://www.szse.cn/application/search/index.html?keyword=万科&r=1629286405260'
browser.get(url=url)
time.sleep(3)
data = browser.page_source
# 获取网页标题
p_title = '<span class="keyword">(.*?)</a>'
title = re.findall(p_title, data)
# 获取网页网址
p_href = '<a class="text ellipsis pdf" href="(.*?)" target="_blank"'
href = re.findall(p_href, data)
# 批量下载
for index in range(len(href)):
title[index] = re.sub('<.*?>', '', title[index])
res = requests.get(href[index])
path = '问询函\\' + title[index] + '.pdf'
file = open(path, 'wb')
file.write(res.content)
file.close()
print("第" + str(index + 1) + "号文件下载成功!")