【Web_接口爬虫_Python3_百度一下_request&json&etree】百度一下,检索“成都”,爬取标题、内容、链接地址,保存文本_20200301
程序员文章站
2022-03-20 18:22:54
#!/usr/bin/env/python3# -*- coding:utf-8 -*-'''Author:leoDate&Time:2021/2/23 18:10Project:Python3 FileName:Baidu_request.py'''# -*- coding: utf-8 -*-import jsonimport requestsfrom lxml import etreeclass Baidu_requests(object): def _....
目录
Python爬虫
【导入第三方库】
import json
import requests
from lxml import etree
【类的初始化】
class Baidu_requests(object):
def __init__(self):
pass
【发起请求】
def baidu_test(self, url='https://www.baidu.com/s?wd=成都&rsv_spt=1'):
'''
百度一下:取出标题、描述、url
:param url: 成都
:return: None
'''
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36", "Content-Type": "text/html;charset=utf-8"}
response = requests.get(url, headers=headers)
res_text = response.text.encode('gbk', 'ignore').decode('gbk')
【解析响应】
res_text = response.text.encode('gbk', 'ignore').decode('gbk')
html = etree.HTML(res_text, etree.HTMLParser())
html_h3 = html.xpath('//*[@id="content_left"]/div[@id]')
【循环解析】
# 遍历信息
for i in range(len(html_h3)):
try:
str_xpath_1 = f'//*[@id="content_left"]/div[@id="{int(i) + 1}"]//h3'
res_title_1 = html.xpath(str_xpath_1)[0].xpath('string(.)')
except:
res_title_1 = str_xpath_1
try:
str_xpath_2 = f'//*[@id="content_left"]/div[@id="{int(i) + 1}"]//div'
res_comment_2 = html.xpath(str_xpath_2)[0].xpath('string(.)')
except:
res_comment_2 = str_xpath_2
try:
str_xpath_3 = f'//*[@id="content_left"]/div[@id="{int(i) + 1}"]//a/@href'
res_url_3 = html.xpath(str_xpath_3)[0]
except:
res_url_3 = str_xpath_3
【格式化数据】
# 格式化信息
res_title_1 = str(i + 1) + "." + str(res_title_1.encode('gbk', 'ignore').decode('gbk')).strip()
res_comment_2 = res_comment_2.encode('gbk', 'ignore').decode('gbk').replace(" ", '').replace("\n", '')
res_url_3 = res_url_3.encode('gbk', 'ignore').decode('gbk').strip()
【记录信息】
# 记录信息
with open('response_2021.txt', 'a+', encoding='utf-8') as write:
write.write(res_title_1 + '\n')
write.write(res_comment_2 + '\n')
write.write(json.dumps(res_url_3, ensure_ascii=False) + '\n')
write.write('\n')
【打印结果】
# 打印信息
print("Total:", len(html_h3), "\nUrl :", url, "\n")
print(res_title_1, end='\n------------------------\n')
print(res_comment_2, end='\n')
print(res_url_3, end='\n\n')
if __name__ == "__main__":
Baidu_requests().baidu_test()
【----------实现效果------------】
D:\TestFiles\Python3\python.exe D:/Mytest/Svnbucket/Python3/临时文件/Baidu_request.py
Total: 11
Url : https://www.baidu.com/s?wd=成都&rsv_spt=1
1.成都(四川省省会、副省级市) - 百度百科
------------------------
重播进入百科成都,简称“蓉”,别称蓉城、锦城,是四川省省会、副省级市、特大城市、成渝地区双城经济圈核心城市,国务院批复确定的中国西部地区重要的中心城市,国家重要的高新技术产业基地、商贸物流中心和综合交通枢纽。截至2019年,全市下辖12个市辖区、3个县、代管5...历史沿革行政区划地理环境自然资源人口政治更多>baike.baidu.com/
http://www.baidu.com/link?url=-WgTsRnaxzWlsxP78BLSlzPzBaXFXLR42wPLkg7AJMVGbljm0YpuIQRipIs_hAPdo4CrUP77kzCvoJXRf2Bq4G6GI6_IA8zwG-e983ubEiO
2.中国成都
------------------------
中优:让老成都嗅到“蜀都味”让新蓉漂感受“国际范”四川省*网专栏:全力以赴坚决打赢抗击新冠肺炎疫情人民战争新闻推荐范锐平主持召开市委全面深化....user-avatar{ display:flex; flex-direction:row; align-items:center; justify-content:flex-start;}www.chengdu.gov.cn/.snapshoot,.snapshoot:visited{color:#9195A3!important;}.snapshoot:active,.snapshoot:hover{color:#626675!important;}百度快照
http://www.baidu.com/link?url=dQKUaBQDWX_lxVDl4SILItinMPJsB79lEF4PJ0_J91lylftfO-gbJbCViQxlMNjO
3.成都,吃喝玩乐背后的雄心_腾讯新闻
------------------------
3小时前如果人们要问,谁是“新一线城市”,那么,成都应该是最想摘掉“新”字的那个。在各种有关城市的指标上,比如中国第四城第五城、最宜居城市等,成都常年霸...
http://www.baidu.com/link?url=RAQOz3DNvH6pcFTacFMi3VU-pjgpA4Ov9E1X84Qkof0XdF7QWXTSvptMRjsaSpjvyIaNuckAkZTyaPDuFRP8ra
4.成都市人民*
------------------------
认识成都成都市实施幸福美好生活十大工程动员大会召开范锐平讲话王凤朝主持新闻推荐范锐平主持召开市委常委会(扩大)会议成都市重大产业化项目投资基金高能级项....user-avatar{ display:flex; flex-direction:row; align-items:center; justify-content:flex-start;}www.chengdu.gov.cn/chengdu/ind....snapshoot,.snapshoot:visited{color:#9195A3!important;}.snapshoot:active,.snapshoot:hover{color:#626675!important;}百度快照
http://www.baidu.com/link?url=uI_4ckJQgTGbxQXotb7l-f8Lvvm2PSapolQbyJfaU3BHS_cw8BhYfaqL1u0tFqfQVErxA3ZIDtlugZvpHf3Uw_
5.成都网站建设-定制做网站-成都网站制作公司-专业建站、创...
------------------------
成都创新互联科技有限公司是一家专注成都做网站,网站建设,网站设计,网络营销,服务器托管等互联网公司,专业为中小企业提供网站设计制作,网站后期维护,网站推广等一整套...
http://www.baidu.com/link?url=P-we37k8UfrvxIWs1VnLkxPDFz3758pmogHuPKSQRr6BYlg-ecATnxYYc1pWqR1M
6.//*[@id="content_left"]/div[@id="6"]//h3
------------------------
其他人还在搜成都必去的十大景点成都旅游攻略成都旅游团成都三日游最佳攻略歌曲《成都》成都旅游景点成都必去的地方排行为什么成都被称为性都成都旅游景点大全排名赵雷《成都》
/s?wd=%E6%88%90%E9%83%BD%E5%BF%85%E5%8E%BB%E7%9A%84%E5%8D%81%E5%A4%A7%E6%99%AF%E7%82%B9&usm=3&ie=utf-8&rsf=11630003&rsv_dl=0_prs_28608_1&rsv_pq=f0b6a72400020cd3&rsv_t=a31dNdBxSz0hyyM0VpXeLU%2BPdoEnhPsiIv4NpvGNu2K7IYOCAmg3JAe5U7E&oq=
7.成都的最新相关信息
------------------------
46分钟前重返500万!成都地铁单日客运量节后回温红星新闻随着春节假期结束,成都地铁线网客运量也迅速回温。今天(2月23日),红星新闻记者从成都地铁运营有限公司获悉,2月22日,成都地铁单日客流量达到523.22万,为今年首次重...3小时前成都普通女孩VS网红女孩网易35分钟前未来五年成都将建400所中小学幼儿园优质教育学...四川新闻网1小时前成都“*公务机被天降异物击穿”原因查明,修...澎湃新闻2小时前首部城市主题院线电影《成都漫步》开机腾讯新闻
http://www.baidu.com/link?url=-WgTsRnaxzWlsxP78BLSlrpdWiHwsLFgDrQa8eR880vyd1MUHbqmWzDomeC48nPxsHbJSBVK9vGKPxw8AtXpditR_ybT2QrVXLlhiBvP4kC2HoWRZWWRV9LZCmIPDjKh
8.成都 - 百度汉语
------------------------
http://www.baidu.com/link?url=lvT4jl9lP0uzOqAI1vksANLI7AOOrOx7Qc7A46ARSfWVF_o5yNO-3b3unFQpH50IEJqFfPJyfVHb-itC_EQ6Sf6yKJ80EfRhmi514IW0Izq8W0dunI3LM_nyRBmdTrxI4wggEmSQMtz7HKTRcdoZlq
9.成都在线试听_高音质歌曲_网易云音乐
------------------------
网易云音乐酷我音乐酷狗音乐千千音乐序号歌曲歌手播放歌词01成都 赵雷 02成都 文静 03成都 曲肖冰 04成都 彭子龙 05成都 刘安琪 查看更多成都 序号歌曲歌手播放歌词01成都 降央卓玛 02成都 冯提莫 03成都 李梦瑶 查看更多成都 序号歌曲歌手播放01成都 阿兰 02成都 徐薇 查看更多成都 序号歌曲歌手播放歌词下载01成都 杨峰 02成都 蓝天城少儿艺术团 查看更多成都
http://www.baidu.com/link?url=rHqQQAjABl8e0WVtEqwsKXzbcIsraO5evjCLU3BPLVs96DjDidp_y2BcrR30mFk4izEc9kqOZqid8ifg62ZOz38eOWwGnb0VBHwyMKYhfs7
10.严格执法!成都曝光两起非道路移动机械违法行为
------------------------
1小时前近年来,成都市为打赢蓝天保卫战,深入推进“铁腕治霾”,减少移动源污染,改善空气质量,加大了对机动车和非道路移动机械的监管力度,严肃查处违法行为。2...
http://www.baidu.com/link?url=-i-lJNoAdS6Kudsx2F85j50UReOfwI2dRoJkVMBC7dnmJHUaiVNxJR-dRnXp1mo9VdWYn6N5q6xAMS5YDFdbx0zu4eE1ORlKxpBuiPVDyWi
11.2021成都旅游攻略,成都*行攻略,马蜂窝成都出游攻略游记...
------------------------
喜欢热闹疯狂,请来重庆喜欢小资情调,就去成都成都更加人文,底蕴更深,来这里就是放松可以使自己更沉静;如果只是单纯的为了吃好玩好那我推荐去重庆!【先说一下重庆....user-avatar{ display:flex; flex-direction:row; align-items:center; justify-content:flex-start;}马蜂窝.snapshoot,.snapshoot:visited{color:#9195A3!important;}.snapshoot:active,.snapshoot:hover{color:#626675!important;}百度快照
http://www.baidu.com/link?url=4VqILO61Uhc8hkLPjCQQEul6lOkNLAB3YNam12ANs0V6d1dfzzRvGnpDn_StpMbhZ3jePHAjDT3Ltqwv2CkUhH7h5kvMliCg1Gkqi0gUHZe
进程已结束,退出代码0
本文地址:https://blog.csdn.net/denzeleo/article/details/114001567