scrapy

程序员文章站 2022-03-02 22:29:26

...

Scrapy

多个spider对应不同的pipelines

给spider设置自己的custom_settings

下载的文件重命名

继承ImagesPipeline，重写file_path函数

csv文件按指定的顺序输出

参考

访问动态页面

方式1：重写中间件，采用*面浏览器selenium，禁用原本的middleware
方式2：selenium最好放置在spider中，如果存在下载图片任务，如果selenium放置在middleware中，下载图片也会经过selenium，每下载一个图片会打开一个浏览器，效率低。

no module named ‘win32api’

$ pip install pypiwin32

访问中的所有文字内容

当中没有其他标签时，可以使用xpathData.xpath(‘./text()’).extract()提取

当中还有其他标签，使用xpathData.xpath(‘string(.)’).extract()提取

可以考虑使用preceding，参考

爬取天猫时提示登录

Selenium调用geckodriver启动火狐（或chrome），当遇到爬虫不好处理的情况时（登录或者输入验证码）采用人工输入的方式

driver = webdriver.Firefox(executable_path=r'C:\geckodriver.exe')
driver.get(request.url)
time.sleep(10)
driver.find_element_by_xpath('//*[@class="sn-container"]/p/a[1]').click()
print("please log in , and input message in search box ")
print("waiting...")
time.sleep(60)

启动火狐后，进入到登录界面，扫描二维码登录，在输入框中搜索需要检索的数据，再切换到需要的页面吗，爬虫开始工作。爬取完当前的页面，提示（人工）切换到下一个页面。

geckodriver是一个控制浏览器的工具

搭建cookies池

参考

上一篇： Scrapy

下一篇： springboot配置profile多环境支持

scrapy

Scrapy

多个spider对应不同的pipelines

下载的文件重命名

csv文件按指定的顺序输出

访问动态页面

no module named ‘win32api’

访问中的所有文字内容

爬取天猫时提示登录

搭建cookies池

eclipse开发scrapy爬虫工程，附爬虫临门级教程

scrapy中item和pipeline和yield和callback用法

Scrapy详解

爬虫scrapy框架爬取一药网

使用scrapy框架爬取桌面背景图片

Scrapy与scrapy-splash框架快速加载js页面

爬虫之scrapy框架

mac安装scrapy并创建项目的实例讲解

Python使用scrapy抓取网站sitemap信息的方法

python爬虫scrapy运行ImportError:Nomodulenamedwin32api错误解决办法

scrapy

Scrapy

多个spider对应不同的pipelines

下载的文件重命名

csv文件按指定的顺序输出

访问动态页面

no module named ‘win32api’

访问中的所有文字内容

爬取天猫时提示登录

搭建cookies池

eclipse开发scrapy爬虫工程，附爬虫临门级教程

scrapy中item和pipeline和yield和callback用法

Scrapy详解

爬虫scrapy框架 爬取一药网

使用scrapy框架爬取桌面背景图片

Scrapy与scrapy-splash框架快速加载js页面

爬虫之scrapy框架

mac安装scrapy并创建项目的实例讲解

Python使用scrapy抓取网站sitemap信息的方法

python爬虫scrapy运行ImportError:Nomodulenamedwin32api错误解决办法

爬虫scrapy框架爬取一药网