欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

构建header爬虫构建请求头header

程序员文章站 2022-06-16 08:38:38
...

今天学写爬虫,刚上来就碰壁了,大多数浏览器都有反爬虫机制,于是要学会设置请求头header,这样就可以伪装成浏览器。

Header来源

打开任意浏览器某一网页,按F12,点开network,再按提示按ctr+R,点击name选择网站名,再看到有一个右边框第一个headers,找到request headers,这个就是浏览器的请求报头,
复制其中的user-agent,复制内容。
构建header爬虫构建请求头header
构建header爬虫构建请求头header
构建header爬虫构建请求头header

导入request库,复制网址给url,用字典保存header,接着再用request方法把url和headers组合在一起就构成简单请求了。再使用BeautifulSoup()方法,就可以顺利爬取到网站内容了
import requests,bs4
url='https://movie.douban.com/top250'
#构建请求头
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}
#取得Response 对象
res=requests.get(url,headers=header)
#使用bs4.BeautifulSoup()方法,解析Response 对象
soup=bs4.BeautifulSoup(res.text,"html.parser")
targets=soup.find_all("div",class_="hd")
for each in targets:
    print(each.a.span.text)