突破网站禁止访问妙招
程序员文章站
2022-07-11 09:57:08
有些网站禁止未登陆用户访问,但会对搜索引擎开绿灯。开绿灯的方式有可能只是简单地判断 User Agent。所以,只要把浏览器的 User Agent 改为搜索引擎的爬虫即可访问其内容。对 Chrome 来说就是按 F12,点下面那三个点,在菜单中选 Network conditions,然后将 User Agent 设置为 Googlebot 即可。...
有些网站禁止未登陆用户访问,但会对搜索引擎开绿灯。开绿灯的方式有可能只是简单地判断 user agent。
所以,只要把浏览器的 user agent 改为搜索引擎的爬虫即可访问其内容。对 chrome 来说就是按 f12,点下面那三个点,在菜单中选 network conditions,然后将 user agent 设置为 googlebot 即可。
@tombkeeper
上一篇: Python常用的json标准库
下一篇: Python struct.unpack