网络爬虫urllib.error.HTTPError: HTTP Error 403: Forbidden的问题方法
程序员文章站
2022-05-29 18:37:19
...
今天学习《Python网络爬虫权威指南》第三章的时候,在写爬取wiki网站的代码时遇到了问题:urllib.error.HTTPError: HTTP Error 403: Forbidden。通过在网上查阅资料,问题出在了我们直接urlopen提出访问申请是非正常的申请,缺少网站需要的信息,会被拒接访问:
之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫.有些网站为了防止这种非正常的访问,会验证请求信息中的UserAgent(它的信息包括硬件平台、系统软件、应用软件和用户个人偏好),如果UserAgent存在异常或者是不存在,那么这次请求将会被拒绝(如上错误信息所示)所以可以尝试在请求中加入UserAgent的信息
(摘自51CT0博客博主sunday208)
通过网上的信息,我们需要在请求中添加UserAgent的信息,具体代码如下:
from urllib.request import urlopen,Request
from bs4 import BeautifulSoup
chaper_url = 'https://en.jinzhao.wiki/wiki/Kevin_Bacon'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36'}
req = Request(url=chaper_url, headers=headers)
html = urlopen(req)
bs = BeautifulSoup(html, 'html.parser')
for link in bs.find_all('a'):
if 'href' in link.attrs:
print(link.attrs['href'])
这样就可以访问wiki百科了。