python requests 简单网页文本爬取

程序员文章站 2022-03-08 20:04:52

爬取网页：用requeusts获取整个网页的HTML信息；使用Beautiful Soup解析HTML信息 ......

爬取网页：

http://www.cnblogs.com/xrq730/archive/2018/06/11/9159586.html

抓取的是一个博客的文本内容

用requeusts获取整个网页的HTML信息；
使用Beautiful Soup解析HTML信息

python requests 简单网页文本爬取

 1 import requests
 2 from bs4 import BeautifulSoup
 3  
 4 
 5 if __name__=='__main__':
 6     target='http://www.cnblogs.com/xrq730/archive/2018/06/11/9159586.html'
 7     req=requests.get(url=target)
 8     html=req.text
 9     bf=BeautifulSoup(html)
10     texts=bf.find_all('div',class_='blogpost-body')
11     #print(html)
12     print(texts[0].text.replace('<p><span style=\"font-size: 14px; font-family: 宋体;\">','\n\n\t'))
13     #print(texts[0].text.replace('\ax0'*8,'\n\n'))

上一篇：电商海报的模仿和延展的制作过程

下一篇：微信公众号封号规则，公众号不容易封号的原因是什么

python requests 简单网页文本爬取

python爬取网页内容转换为PDF文件

Python实现爬取知乎神回复简单爬虫代码分享

python爬取妹子图片（简单入门）

python中requests爬去网页内容出现乱码问题解决方法介绍

python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]

Python用requests库爬取返回为空的解决办法

Python简单实现爬取快递物流实时信息

Python爬虫爬取一个网页上的图片地址实例代码

Python使用爬虫爬取静态网页图片的方法详解

Python爬虫之简单的爬取百度贴吧数据