欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

网络爬虫urllib.error.HTTPError: HTTP Error 403: Forbidden的问题方法

程序员文章站 2022-05-29 18:37:19
...

今天学习《Python网络爬虫权威指南》第三章的时候,在写爬取wiki网站的代码时遇到了问题:urllib.error.HTTPError: HTTP Error 403: Forbidden。通过在网上查阅资料,问题出在了我们直接urlopen提出访问申请是非正常的申请,缺少网站需要的信息,会被拒接访问:

之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫.有些网站为了防止这种非正常的访问,会验证请求信息中的UserAgent(它的信息包括硬件平台、系统软件、应用软件和用户个人偏好),如果UserAgent存在异常或者是不存在,那么这次请求将会被拒绝(如上错误信息所示)所以可以尝试在请求中加入UserAgent的信息
(摘自51CT0博客博主sunday208)

通过网上的信息,我们需要在请求中添加UserAgent的信息,具体代码如下:

from urllib.request import urlopen,Request
from bs4 import BeautifulSoup

chaper_url = 'https://en.jinzhao.wiki/wiki/Kevin_Bacon'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36'}
req = Request(url=chaper_url, headers=headers) 
html = urlopen(req)
bs = BeautifulSoup(html, 'html.parser')
for link in bs.find_all('a'):
    if 'href' in link.attrs:
        print(link.attrs['href'])

这样就可以访问wiki百科了。

相关标签: 网络爬虫 python