欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python爬虫连载16-OCR工具Tesseract、Scrapt初步

程序员文章站 2022-06-15 14:01:24
一、验证码破解 1.(上承连载15)极验 (1)官网:http://www.geetest.com 破解比较麻烦、可以模拟鼠标移动、一直在进化 二、Tesseract 1.机器视觉领域的基础软件 2.OCR​:OpticalCharacterRecognition 3.Tesseract​:一个OC ......

一、验证码破解

1.(上承连载15)极验

(1)官网:http://www.geetest.com

破解比较麻烦、可以模拟鼠标移动、一直在进化

二、tesseract

1.机器视觉领域的基础软件

2.ocr​:opticalcharacterrecognition

3.tesseract​:一个ocr库,有谷歌资助

​安装:https://blog.csdn.net/showgea/article/details/82656515

 

import pytesseract as pt

import os

​

# os.path()

from pil import image

#生成图片实例

image = image.open(r"c:\users\lenovo1\untitled\image\testocr.jpg")

#调用pytesseract,把图片转换为文字

text = pt.image_to_string(image)

print(text)

 

 

三、爬虫框架scrapy

1.常见的爬虫框架scrapy\pyspider\crawley,基本都是开源的

2.官方文档:https://docs.scrapy.org/en/latest/

3.该框架包含如下各个部件

(1)scrapyengine:神经中枢、大脑、核心

(2)scheduler​调度器:引擎发来的request请求,调度器需要处理,然后​交换引擎。

(3)downloader​下载器:把引擎发来的requests发出请求,得到response

(4)spider​爬虫:负责把下载器得到的网页/结果进行分解,分解成数据+链接​。

(5)item​pipeline管道:详细处理item

(6)downloadermiddleware​下载中间件:自定义下载的功能扩展组件

(7)spidermiddleware​爬虫中间件:

Python爬虫连载16-OCR工具Tesseract、Scrapt初步

Python爬虫连载16-OCR工具Tesseract、Scrapt初步

4.爬虫项目大概流程

(1)​新建项目:scrapy startproject xxx

(2)明确需要的目标/产出​:编写item.py

(3)​制作爬虫:​地址:spider/xxspider.py

(4)​存储内容:pipelines.py​

四、源码

reptile16_1_vertificationcoderecognition.py

https://github.com/ruigege66/pythonreptile/blob/master/reptile16_1_vertificationcoderecognition.py

2.csdn:https://blog.csdn.net/weixin_44630050

3.博客园:https://www.cnblogs.com/ruigege0000/

4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料

 Python爬虫连载16-OCR工具Tesseract、Scrapt初步