构建header爬虫构建请求头header
程序员文章站
2022-06-16 08:38:38
...
今天学写爬虫,刚上来就碰壁了,大多数浏览器都有反爬虫机制,于是要学会设置请求头header,这样就可以伪装成浏览器。
Header来源
打开任意浏览器某一网页,按F12,点开network,再按提示按ctr+R,点击name选择网站名,再看到有一个右边框第一个headers,找到request headers,这个就是浏览器的请求报头,
复制其中的user-agent,复制内容。
导入request库,复制网址给url,用字典保存header,接着再用request方法把url和headers组合在一起就构成简单请求了。再使用BeautifulSoup()方法,就可以顺利爬取到网站内容了
import requests,bs4
url='https://movie.douban.com/top250'
#构建请求头
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}
#取得Response 对象
res=requests.get(url,headers=header)
#使用bs4.BeautifulSoup()方法,解析Response 对象
soup=bs4.BeautifulSoup(res.text,"html.parser")
targets=soup.find_all("div",class_="hd")
for each in targets:
print(each.a.span.text)
上一篇: c语言序列化和反序列化