python3爬虫之访问量、点击率数据的爬取分析

程序员文章站 2022-04-26 17:06:46

...

python3爬虫之访问量、点击率数据的爬取分析

1.明确问题：
python3爬虫之访问量、点击率数据的爬取分析

通过开发者工具分析我们可以看出，这个点击率并不是‘静态数据’，而是一个脚本返回，那么这个数据到底藏在哪里呢？
经验告诉我，不是Doc 就在Js找，如果还找不到，那很有可能就在XHR(Ajax的一种用法即异步加载)中了，果不其然，通过查找确定我们要的数据在这里：
python3爬虫之访问量、点击率数据的爬取分析

2.该怎么取回数据呢？
分析Header：
python3爬虫之访问量、点击率数据的爬取分析
我们可以确定网址，那么这个网址有什么特点呢？
http://www2017.tyut.edu.cn/system/resource/code/news/click/dynclicks.jsp?clickid=9578&owner=1353264808&clicktype=wbnews
经过规律总结，我发现clickid={}&owner={}这两个值是不停变化的，其他的部分并没有动。
那这两个值是怎么变化的呢?返回去找原文章点击量的脚本，我发现
点击率：[<script>_showDynClicks("wbnews", **1353264808**, **9578**)</script>]次</span></div>
这时候我们可以确定怎么取数据了

3.数据取法：

x = soup.select('.xxxx script')[0].text.replace(' ', '').strip(')').split(',')
    resulturl = 'http://www2017.tyut.edu.cn/system/resource/code/news/click/dynclicks.jsp?clickid={}&owner={}&clicktype=wbnews'.format(
        x[2], x[1])
    count = BeautifulSoup(requests.get(resulturl).text, 'html.parser')