简易网页采集器

程序员文章站 2022-05-02 22:03:59

...

1 需求

爬取搜狗指定词条对应的搜狗搜索结果页面（简易网页采集器）。

2 代码实现

"""爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）"""
import requests


# 将对应的User-Agent封装到字典中
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0"}
url = "https://www.sogou.com/web"
# 处理url携带的参数：封装到字典中
kw = input("Enter a word: ")
param = {'query': kw}
# 对指定的url发起的请求的对应的url是携带参数的，并且请求过程中处理了参数
response = requests.get(url=url, params=param, headers=headers)
# 获取响应数据
page_text = response.text
# 持久化存储
fileName = kw + ".html"
with open(fileName, 'w', encoding='utf-8') as fp:
    fp.write(page_text)
print(fileName + "保存成功！")

相关标签： Python爬虫编程 python

上一篇： php同时执行多文件？解决办法

下一篇：在Linux命令行上直接运行MySQL文件

简易网页采集器

1 需求

2 代码实现

网页怎么隐藏index.php

ASP.NET实现根据URL生成网页缩略图的方法

Python制作简易注册登录系统

Android Webview添加网页加载进度条实例详解

简易 javascript 日历

CSS实现网页背景图片自适应全屏详解

在无网centos中简易部署python环境

java创建简易视频播放器

教你如何用CSS来控制网页字体的显示样式

ajax添加数据后如何在网页显示