python漫画爬虫:我不做人了，b站！爬取辉夜大小姐等漫画

程序员文章站 2024-01-18 21:45:16

今天我们要爬取这个网站的《辉夜大小姐想让我告白》漫画（穷人靠科技，富人靠硬币，懂，不多说）首先我们找到了每一话的链接# 获取章节链接和章节名称hrefs = re.findall('

\n.*?\n.*?(.*?)',r.text)for href in hrefs: # 拼接章节链接 chapter_url = 'http://w...

今天我们要爬取这个网站的《辉夜大小姐想让我告白》漫画（穷人靠科技，富人靠硬币，懂，不多说）
主要就两步：1.在主界面找到所有话的链接 2.在每一话找到该话的所有图片
python漫画爬虫:我不做人了，b站！爬取辉夜大小姐等漫画
首先我们找到了每一话的链接

# 获取章节链接和章节名称
hrefs = re.findall('<li>\n.*?<a href="(.*?\.html)\"\n.*?class="">\n.*?<span>(.*?)</span>',r.text)
for href in hrefs:
    # 拼接章节链接
    chapter_url = 'http://www.90mh.com' + href[0]
    name = href[1]
    chapter_path = root_path + '\\' + name
    print(chapter_path)
    # 辉夜大小姐想让我告白\周刊13话

在进入其中一话，找到每一话的所有图片
python漫画爬虫:我不做人了，b站！爬取辉夜大小姐等漫画

# 获取章节图片
    chapter_imges = re.search('chapterImages = (\[.*?\])',chapter_page.text,re.S)
    chapter_src = re.search('chapterPath = "(.*?)"',chapter_page.text).group(1)
''' ...... '''
pic_url = 'https://js1.zzszs.com.cn/' + chapter_src + chapter_imges[i]

最终效果：
python漫画爬虫:我不做人了，b站！爬取辉夜大小姐等漫画

成功！

当然，不同网站结构不同，爬取方式也有些许不同。比如动漫之家——参考自这里.
python漫画爬虫:我不做人了，b站！爬取辉夜大小姐等漫画
但方式其实也就那么几种，还是可以摸索出来的，目前我爬了四五个网站，也都成功了，大家可以自己动手试试。

为防止对网站造成压力，这里只公布部分源码，大家可以依照我的思路自己实现，如有需要评论区留邮箱。

本文地址：https://blog.csdn.net/weixin_43476533/article/details/107504865

上一篇： nginx版本低，但是又不能关闭怎么办？一招教你平滑升级

下一篇： Tomcat详解以及安装使用