Scrapy问题记录

程序员文章站 2022-05-31 11:19:55

...

一、Filtered offsite request

由于指定了allowed_domains的参数，所有不符合规定的url将被忽略，导致部分url爬取失败，解决方法时不设置该参数，或者设置dont_filter=true

yield Request(url, callback=self.parse_item, dont_filter=True)

二、Item

负责将数据进行结构话的保存，在parse方法中将数据保存到item中，并且返回yield方法，数据会传入到pipline中。

三、pipline

负责保存数据，在settings进行配置，IMAGES_URLS_FIELD必须是一个数组，对应的是item中保存图片的字段

ITEM_PIPELINES = {
   'ArticleSpider.pipelines.ArticlespiderPipeline': 300,
    #配置图片下载的方式
  # 'scrapy.pipelines.images.ImagesPipeline':1
}
##指定从Item的哪个参数获取image url
"""
IMAGES_URLS_FIELD会接收一个数组函数
"""
IMAGES_URLS_FIELD="front_img_url"
##指定保存图片的位置
project_dir=os.path.abspath(os.path.dirname(__file__))
##图片保存路径
IMAGE_STORE=os.path.join(project_dir,'images')

上一篇：一次同步不当的bug记录。

下一篇： mysql的XA事务恢复_MySQL

Scrapy问题记录

一、Filtered offsite request

二、Item

三、pipline

对象-php代码问题，读取数据库的数据

RedHat Linux 5.5 X64 安装 Oracle 10g 遇到的两个问题

关于图片下传，文件名中文显示乱码有关问题

php插入mysql出有关问题了

thinkphp模板输出问题

多个foreach嵌套循环的问题

关于初次使用Oracle若干问题集锦

再次问高手 linux下apache配置ssl后为何https和http都可以访问等有关问题 100分

SQL SERVER修复系统表错误不匹配的问题

ThinkPHP 的有关问题，请各位帮忙看看