欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python爬虫学习—爬取小说章节

程序员文章站 2022-03-27 13:57:18
之前学了Python好久都没有用,感觉再不继续学就要忘了。。。赶紧再挖个坑继续学习。这个部分会用Python去做爬虫来进行学习,巩固python的知识。爬虫的教程看的是Jack-Cui大佬的文章。这一次是跟着大佬学习:Python3 网络爬虫(二):下载小说的正确姿势(2020年最新版)_Jack-Cui-CSDN博客练习 - 爬取章节前面的爬虫基础部分就看大佬的上一篇博文,讲的非常棒:Python3 网络爬虫(一):初识网络爬虫之夜探老王家(2020年最新版)_Jack-Cui-....

之前学了Python好久都没有用,感觉再不继续学就要忘了。。。赶紧再挖个坑继续学习。这个部分会用Python去做爬虫来进行学习,巩固python的知识。

 

爬虫的教程看的是Jack-Cui大佬的文章。这一次是跟着大佬学习:

Python3 网络爬虫(二):下载小说的正确姿势(2020年最新版)_Jack-Cui-CSDN博客


练习 - 爬取章节

前面的爬虫基础部分就看大佬的上一篇博文,讲的非常棒:

Python3 网络爬虫(一):初识网络爬虫之夜探老王家(2020年最新版)_Jack-Cui-CSDN博客

 

这里我就直接上手开始练习了。首先打开审查界面,可以看到这个网站的这个结构确实比较简单。

Python爬虫学习—爬取小说章节

 

首先我们来提取数据为,div, id = 'list'的内容:

Python爬虫学习—爬取小说章节

可以看到可以提取出所有章节的标题和一个网址,但是数据纠缠到一起要进行一下处理。

Python爬虫学习—爬取小说章节

 

 

回到网址,进行进一步的数据解析。可以看到每个章节的网址,都存在url标签为href的内容中:

Python爬虫学习—爬取小说章节

 

因此这里可以使用get方法,去得网址。另外对于章节名部分,由于每一个chapter里面章节名均为string格式的文字,可以筛选出每行数据里为文字的数据:

Python爬虫学习—爬取小说章节

 

运行效果:

Python爬虫学习—爬取小说章节

 


 

下载每章节小说

 

大佬的原版代码如下:

Python爬虫学习—爬取小说章节

 

但是由于不想要下载完整小说(但是需要注意里面get_content()方法的作用!),这里改为保存小说标题和对应链接:

Python爬虫学习—爬取小说章节

点击运行,可以在下面console看到下载进度:

Python爬虫学习—爬取小说章节

下载结果如下,可以看到就成功下载了我们想要的小说标题和对应链接:

Python爬虫学习—爬取小说章节Python爬虫学习—爬取小说章节

 


 

最后引用一下大佬的总结:

Python爬虫学习—爬取小说章节

 

本文地址:https://blog.csdn.net/weixin_44281768/article/details/110421922