欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

简易网页采集器

程序员文章站 2022-05-02 22:03:59
...

1 需求

爬取搜狗指定词条对应的搜狗搜索结果页面(简易网页采集器)。

2 代码实现

"""爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)"""
import requests


# 将对应的User-Agent封装到字典中
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0"}
url = "https://www.sogou.com/web"
# 处理url携带的参数:封装到字典中
kw = input("Enter a word: ")
param = {'query': kw}
# 对指定的url发起的请求的对应的url是携带参数的,并且请求过程中处理了参数
response = requests.get(url=url, params=param, headers=headers)
# 获取响应数据
page_text = response.text
# 持久化存储
fileName = kw + ".html"
with open(fileName, 'w', encoding='utf-8') as fp:
    fp.write(page_text)
print(fileName + "保存成功!")