欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python之scrapy(一)

程序员文章站 2022-07-13 22:46:22
...
  • 通过workon进入后创建的虚拟环境article_spider
  • 虚拟环境只是用来关联项目的环境的例如,pip加载的一些插件也会直接放入你的虚拟环境中
  • 在e盘创建一个scrapy 项目:
    pip install scrapy 
    
     window10的环境下可能会报错,因为一个需要安装一个window10的本地环境,需要去
  • http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
  • 下载:Twisted‑17.9.0‑cp36‑cp36m‑win_amd64.whl

根据你的版本来的我的python3.6的 环境下是window10的64位然后安装这个,还在这个虚拟环境里面安装啊可不要跳出来

 

pip install D:\Python\Scripts\Twisted-17.1.0-cp36-cp36m-win_amd64.whl

 

开始安装框架项目

 

scrapy startproject ArticleSpider

 

 

会提示:

New Scrapy project 'ArticleSpider', using template directory 'e:\\evns\\articel_spider\\lib\\site-packages\\scrapy\\templates\\project', created in:

    E:\pythonShare\ArticleSpider

 

然后按照提示添加要爬取的网站 一定要到这个你新建的项目目录下 例如 你创建的项目是:

E:\pythonShare\ArticleSpider 在这个目录下

输入命令

 

scrapy genspider 项目名称 blog.jobbole.com

项目创建完成

 

  

 

  • 通过pycharm启动项目后创建main.py
  • #!/usr/bin/env python
    # -*- coding: utf-8 -*-
    # @File  : main.py
    # @Author: 李明
    # @Date  : 2017/12/10
    # @Desc  :
    
    from scrapy.cmdline import execute
    import sys
    import os
    print(os.path.dirname(os.path.abspath(__file__)))
    sys.path.append(os.path.dirname(os.path.abspath(__file__)))
    execute(["scrapy","crawl","jobbole"])
    
     其实就是在cmd命令行中输入:scrapy crawl jobbole
  • 会爆一个错误No module named 'win32api'
  • 安装这个通过命令
    pip install pypiwin32
     
  • 返回的是个数组extract(),通过strip()去掉空格回城换行等,replace("原来的","替换的")
re_selector.extract()

 

print(re_selector.extract()[0].strip())

 

相关标签: scrapy