Python爬虫爬取简易网页采集器应用
程序员文章站
2022-04-18 09:32:22
需求爬取搜狗指定词条对应的搜索结果页面。分析我搜索的词条为“哈利波特”,其url为 “https://www.sogou.com/web?query=哈利波特”(这是简洁处理过的,实际后面的一些参数省略了,不影响)。但为了能实现搜索不同的词条,我设置了动态参数kw,将其分装到字典中。当我们使用get方法发出请求时,请求所对应的url的参数就可以用params赋值。代码import requestsif __name__ == "__main__": # UA伪装:将对应的User-Ag...
需求
爬取搜狗指定词条对应的搜索结果页面。
分析
四大步:指定url —> 发起请求 —> 获取响应数据 —> 持久化存储
我搜索的词条为“哈利波特”,其url为 “https://www.sogou.com/web?query=哈利波特”(这是简洁处理过的,实际后面的一些参数省略了,不影响)。但为了能实现搜索不同的词条,我设置了动态参数kw,将其分装到字典中。当我们使用get方法发出请求时,请求所对应的url的参数就可以用params赋值。
代码
import requests if __name__ == "__main__": # UA伪装:将对应的User-Agent封装到一个字典中 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'} url = 'https://www.sogou.com/web' # 处理url携带的参数:封装到字典中 kw = input('enter a word:') param = {'query': kw} # 对指定的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数 response = requests.get(url=url, params=param, headers=headers) page_text = response.text
fileName = kw + '.html' with open(fileName, 'w', encoding='utf-8') as fp: fp.write(page_text) print('采集完毕!!!')
本文地址:https://blog.csdn.net/ZD_012/article/details/109036562
上一篇: 差点导致系统挂掉,可用率啊可用率!
下一篇: 关于测试facade的一点想法
推荐阅读
-
python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]
-
Python爬虫爬取一个网页上的图片地址实例代码
-
Python使用爬虫爬取静态网页图片的方法详解
-
python爬虫:批量爬取网页图片
-
Python3爬虫之urllib携带cookie爬取网页的方法
-
Python 爬虫批量爬取网页图片保存到本地的实现代码
-
Python爬虫爬取简易网页采集器应用
-
Python网络爬虫(selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密)
-
Python爬虫学习记录——8.使用自动化神器Selenium爬取动态网页
-
Python爬虫:爬取带隐藏域__EVENTVALIDATION和__VIEWSTATE的form提交网页