python 爬虫爬取所有上市公司公告信息(四)
程序员文章站
2022-04-26 12:17:35
...
。,。前一篇文章我们编写好了爬取的类,现在我们开始编写爬去内容的部分
crawler = CrawlBSF()
maxthread = 20
threads = []
CRAWL_DELAY = 0.5
dum = open('stocklist.csv','r')
stocklist = dum.readlines()
dum.close()
先定义一些需要用到的全局变量,将CrawlBSF类实例化为crawler对象,设置多线程最大线程数为20,等待时间为0.6秒,接着打开存放股票代码的stocklist.csv文件,读取文件中的股票代码存储到序列stocklist中
for stock in stocklist:
for i in range(20):
stockurl = "http://data.eastmoney.com/notices/getdata.ashx?StockCode=%s&CodeType=1&PageIndex=%s&PageSize=50&rt=50239182"%(stock[2:-1],i)
遍历stocklist列表,i为公告的页数,笔者经过观察发现上市公司的2015至今的公告页数大概在13页左右,这里为了保险选择20页。
两个for循环构造出了所有股票的接口url,打开连接后
构造出的URL打开后如图,我们不难发现,网页中的ENDDATA对应的是公告的时间,后面的“URL”则对应着该公告的网址。
比如
ENDDATA对应的是公告的时间,为2017-07-11,打开后面对应的url连接
公告时间确为2017年7月11日,证实了我们的猜想。
我们使用正则表达式抓取公告的时间与它对应的url,以元组的形式返回方便我们储存和调用。
html_page = get_text(stockurl)
talk_url = re.findall(r'"ENDDATA":"(201[5678].*?))T.*?"URL":"(.*?)"}',html_page)
talk_url为储存日期和公告内容url元组的序列,因为我们只抓取2015年至今的数据,所以在后面添加如下语句
if talk_url = []:
break
else:
for num in talk_url:
crawler.enqueueUrl(num)
如果页面没有2015后的公告数据了,则跳出循环,否则将对应的元组传入到爬取的队列中
由于传入的是公告内容链接和其对应的日期,属于元组信息,我们需要对CrawlBSF类中的enqueueUrl函数做一些修改
def enqueueUrl(self,url):
if hashlib.md5(url[1]).hexdigest() not in crawler.bloom_download_urls:
cur_queue.append(url)
。,。这样一个最内层的循环基本就完成了。
上一篇: JS中表单元素获取的代码实现
下一篇: 滴水逆向——RVA与FOA相互转换
推荐阅读
-
Python爬虫实战用 BeautifulSoup 爬取电影网站信息
-
Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例
-
几行Python代码爬取3000+上市公司的信息
-
Python爬虫使用selenium爬取qq群的成员信息(全自动实现自动登陆)
-
网易云歌单信息爬取及数据分析(python爬虫)
-
Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取
-
Python爬虫实战用 BeautifulSoup 爬取电影网站信息
-
Python爬虫项目 ,爬取豆瓣top250中影片信息
-
python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]
-
[python爬虫]爬取英雄联盟所有英雄数据并下载所有英雄皮肤