python链家网高并发异步爬虫and异步存入数据

程序员文章站 2022-09-13 23:38:47

python链家网二手房异步IO爬虫，使用asyncio、aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫，刚入门时会使用requests、urllib这些同步的库进行单线程爬虫，速度是比较慢的，后学会用scrapy框架进行爬虫，速度很快，原因是scrapy是基于twis ......

python链家网二手房异步io爬虫，使用asyncio、aiohttp和aiomysql

很多小伙伴初学python时都会学习到爬虫，刚入门时会使用requests、urllib这些同步的库进行单线程爬虫，速度是比较慢的，后学会用scrapy框架进行爬虫，速度很快，原因是scrapy是基于twisted多线程异步io框架。

本例使用的asyncio也是一个异步io框架，在python3.5以后加入了协程的关键字async，能够将协程和生成器区分开来，更加方便使用协程。

经过测试，平均1秒可以爬取30个详情页信息

可以使用asyncio.semaphore来控制并发数，达到限速的效果

上一篇： CSS-服务器端字体笔记

下一篇： Django中配置自定义日志系统