简易网页采集器
程序员文章站
2022-05-02 22:03:59
...
1 需求
爬取搜狗指定词条对应的搜狗搜索结果页面(简易网页采集器)。
2 代码实现
"""爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)"""
import requests
# 将对应的User-Agent封装到字典中
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0"}
url = "https://www.sogou.com/web"
# 处理url携带的参数:封装到字典中
kw = input("Enter a word: ")
param = {'query': kw}
# 对指定的url发起的请求的对应的url是携带参数的,并且请求过程中处理了参数
response = requests.get(url=url, params=param, headers=headers)
# 获取响应数据
page_text = response.text
# 持久化存储
fileName = kw + ".html"
with open(fileName, 'w', encoding='utf-8') as fp:
fp.write(page_text)
print(fileName + "保存成功!")
上一篇: php同时执行多文件?解决办法