Python爬虫连载16-OCR工具Tesseract、Scrapt初步
一、验证码破解
1.(上承连载15)极验
(1)官网:http://www.geetest.com
破解比较麻烦、可以模拟鼠标移动、一直在进化
二、tesseract
1.机器视觉领域的基础软件
2.ocr:opticalcharacterrecognition
3.tesseract:一个ocr库,有谷歌资助
安装:https://blog.csdn.net/showgea/article/details/82656515
import pytesseract as pt import os # os.path() from pil import image #生成图片实例 image = image.open(r"c:\users\lenovo1\untitled\image\testocr.jpg") #调用pytesseract,把图片转换为文字 text = pt.image_to_string(image) print(text)
三、爬虫框架scrapy
1.常见的爬虫框架scrapy\pyspider\crawley,基本都是开源的
2.官方文档:https://docs.scrapy.org/en/latest/
3.该框架包含如下各个部件
(1)scrapyengine:神经中枢、大脑、核心
(2)scheduler调度器:引擎发来的request请求,调度器需要处理,然后交换引擎。
(3)downloader下载器:把引擎发来的requests发出请求,得到response
(4)spider爬虫:负责把下载器得到的网页/结果进行分解,分解成数据+链接。
(5)itempipeline管道:详细处理item
(6)downloadermiddleware下载中间件:自定义下载的功能扩展组件
(7)spidermiddleware爬虫中间件:
4.爬虫项目大概流程
(1)新建项目:scrapy startproject xxx
(2)明确需要的目标/产出:编写item.py
(3)制作爬虫:地址:spider/xxspider.py
(4)存储内容:pipelines.py
四、源码
reptile16_1_vertificationcoderecognition.py
https://github.com/ruigege66/pythonreptile/blob/master/reptile16_1_vertificationcoderecognition.py
2.csdn:https://blog.csdn.net/weixin_44630050
3.博客园:https://www.cnblogs.com/ruigege0000/
4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料
下一篇: [PHP] 设计一个可扩展的用户登陆系统