Python爬虫连载16-OCR工具Tesseract、Scrapt初步

程序员文章站 2022-03-25 17:24:57

一、验证码破解 1.（上承连载15）极验（1）官网：http://www.geetest.com 破解比较麻烦、可以模拟鼠标移动、一直在进化二、Tesseract 1.机器视觉领域的基础软件 2.OCR：OpticalCharacterRecognition 3.Tesseract：一个OC ......

一、验证码破解

1.（上承连载15）极验

（1）官网：http://www.geetest.com

破解比较麻烦、可以模拟鼠标移动、一直在进化

二、tesseract

1.机器视觉领域的基础软件

2.ocr：opticalcharacterrecognition

3.tesseract：一个ocr库，有谷歌资助

安装：https://blog.csdn.net/showgea/article/details/82656515

 

import pytesseract as pt

import os



# os.path()

from pil import image

#生成图片实例

image = image.open(r"c:\users\lenovo1\untitled\image\testocr.jpg")

#调用pytesseract,把图片转换为文字

text = pt.image_to_string(image)

print(text)

三、爬虫框架scrapy

1.常见的爬虫框架scrapy\pyspider\crawley,基本都是开源的

2.官方文档：https://docs.scrapy.org/en/latest/

3.该框架包含如下各个部件

（1）scrapyengine:神经中枢、大脑、核心

（2）scheduler调度器：引擎发来的request请求，调度器需要处理，然后交换引擎。

（3）downloader下载器：把引擎发来的requests发出请求，得到response

（4）spider爬虫：负责把下载器得到的网页/结果进行分解，分解成数据+链接。

（5）itempipeline管道：详细处理item

（6）downloadermiddleware下载中间件：自定义下载的功能扩展组件

（7）spidermiddleware爬虫中间件：

Python爬虫连载16-OCR工具Tesseract、Scrapt初步

4.爬虫项目大概流程

（1）新建项目：scrapy startproject xxx

（2）明确需要的目标/产出：编写item.py

（3）制作爬虫：地址：spider/xxspider.py

（4）存储内容：pipelines.py

四、源码

reptile16_1_vertificationcoderecognition.py

https://github.com/ruigege66/pythonreptile/blob/master/reptile16_1_vertificationcoderecognition.py

2.csdn：https://blog.csdn.net/weixin_44630050

3.博客园：https://www.cnblogs.com/ruigege0000/

4.欢迎关注微信公众号：傅里叶变换，个人公众号，仅用于学习交流，后台回复”礼包“，获取大数据学习资料

Python爬虫连载16-OCR工具Tesseract、Scrapt初步

上一篇：在 React 中使用 Typescript

下一篇： Python爬虫BS4库的解析器正确使用方法