python反爬之懒加载

程序员文章站 2022-04-19 21:26:29

选取了站长之家作为目标站点右键检查看到的标签实际爬取下来的网页源代码按照这个解析规则，一般就能正确的解析出来需要的内容了。 ......

# 在平时的爬虫中，如果遇到没有局部刷新，没有字体加密，右键检查也能看到清晰的数据，但是按照已经制定好的解析规则进行解析时，会返回空数据,这是为什么呢，这时可以在网页右键查看一下网页源代码，可以发现，在网页上的源代码中有些部分是正确的，有些标签是不正确的，改了名字或者加了数字，或者不是你在网页上检查看到的标签名，所以如果你按照网页上的解析规则去解析， 是解析不到的，这时就要按照网页源代码的解析规则去解析了,这就是典型的网页懒加载。
# 什么是网页懒加载？
＃　网页懒加载是前端为了提高网页访问速度，将页面内没有出现在可视区域内的图片先不做加载，等到手动滑动鼠标滚动到可视区域后再加载。这样对于网页加载性能上会有很大的提升，懒加载的效果就可以提升用户体验。
import requests
from pyquery import pyquery as pq
headers = {
    'user-agent':"mozilla/5.0 (windows; u; windows nt 5.1; en-us; rv:1.9.0.10) gecko/2009042316 firefox/3.0.10",
}
url = 'http://sc.chinaz.com/tupian/fengjingtupian.html'
r = requests.get(url=url,headers = headers)
r.encoding = r.apparent_encoding
demo = r.text
soup = pq(demo)
src = soup('.box.picblock.col3 img')
for i in src:
    i = pq(i)
    i = i.attr('src2')
    print(i)
print(len(src))

　　选取了站长之家作为目标站点

　　右键检查看到的标签

python反爬之懒加载

实际爬取下来的网页源代码

python反爬之懒加载

按照这个解析规则，一般就能正确的解析出来需要的内容了。

上一篇：作业2

下一篇：华硕灵耀U二代笔记本值不值得买华硕灵耀U 2代笔记本详细评测

python反爬之懒加载

python爬虫下载一个网页内的图片解决分页以及图片懒加载的问题

原生JS实现图片懒加载之页面性能优化

【Python必学】Python爬虫反爬策略你肯定不会吧？

Python使用Selenium爬取淘宝异步加载的数据方法

Python探索之爬取电商售卖信息代码示例

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取

python图像处理之反色实现方法

python爬虫--爬虫与反爬

python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]

python网络爬虫之如何伪装逃过反爬虫程序的方法

python反爬之懒加载

python爬虫 下载一个网页内的图片解决分页以及图片懒加载的问题

原生JS实现图片懒加载之页面性能优化

【Python必学】Python爬虫反爬策略你肯定不会吧？

Python使用Selenium爬取淘宝异步加载的数据方法

Python探索之爬取电商售卖信息代码示例

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取

python图像处理之反色实现方法

python爬虫--爬虫与反爬

python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]

python网络爬虫之如何伪装逃过反爬虫程序的方法

python爬虫下载一个网页内的图片解决分页以及图片懒加载的问题