欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Scrapy

程序员文章站 2022-03-02 22:29:14
...

scrapy 学习笔记

  • 在window下,还需要安装pywin32模块

  • 特别注意爬虫中的允许域名:当怎么爬取都没有数据时,检测是否域名没有添加

  • scrapy基本流程

    • 创建scrapy-spider项目

      scrapy startprojec scrapy-spider 
      
    • 创建爬虫baidu

      scrapy genspider baidu baidu.com
      

      生产crawlspider, 可以自动提取url

      scrapy genspider -t crawl  baidu baidu.com
      
    • 开启配置

      • 日志输出信息
      LOG_LEVEL = "WARNING"
      

      还可以使用logging模块,生成日志文件

      • 数据传输管道
      ITEM_PIPELINES = {
          'prmeizi.pipelines.PrmeiziPipeline': 300,
      }
      
相关标签: scrapy spider