scrapy连接Mysql数据库,实现分表插入(超详细)
程序员文章站
2022-03-03 07:52:41
...
我们来看一下流程
目标: 全书网
地址: http://www.quanshuwang.com
内容: 抓取网站所有小说分类,小说,章节,内容 分四张表分别存储
将封面下载到本地,将图片url替换成本地的
技术:
python scrpay框架, (为什么选这个,因为scrapy自带高并发,多线程,程序启动刹不住,必须强行关闭)
mysql 作为我们本次存储
接下来看看代码吧
spider
spider也就是你自己创建的app我这里是book项目名是books
import scrapy
from ..items import BooksItem, BooksClassifyItem, BooksChapterItem, BooksContentItem
class BookSpider(scrapy.Spider):
name = 'book'
allowed_domains = ['quanshuwang.com']
start_urls = ['http://www.quanshuwang.com']
def __init__(self):
self.count = 0
def parse(self, response):
item = BooksItem()
# 获取所有分类地址,目的所有分类下的所有小说
classify_list_title = response.xpath("//nav[@class='channel-nav']//li")[:11]
for classify in classify_list_title:
classify_title = classify.xpath("./a/text()").extract_first
上一篇: Scrapy --异步插入数据库
下一篇: CSS3入门与提高(四)