爬虫之简单验证码处理

程序员文章站 2022-07-10 22:02:27

机器视觉的一个分支：文字识别，介绍如何用一些 Python库来识别和使用在线图片中的文字。将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition, OCR)。可以实现OCR的底层库并不多，目前很多库都是使用共同的几个底层 OCR 库，或者是在上面进行定制 ......

　　机器视觉的一个分支：文字识别，介绍如何用一些 Python库来识别和使用在线图片中的文字。将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition, OCR)。可以实现OCR的底层库并不多，目前很多库都是使用共同的几个底层 OCR 库，或者是在上面进行定制。在这里我们只重点介绍：Tesseract

　　Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统，除了极高的精确度，Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体，也可以识别出任何 Unicode 字符。

Windows 系统

下载可执行安装文件https://code.google.com/p/tesseract-ocr/downloads/list安装。

Linux 系统

可以通过 apt-get 安装: $sudo apt-get tesseract-ocr

Tesseract 是一个 Python 的命令行工具，不是通过 import 语句导入的库。安装之后,要用 tesseract 命令在 Python 的外面运行，但我们可以通过 pip 安装支持Python 版本的 Tesseract库：

pip install pytesseract

import pytesseract
from PIL import Image

image = Image.open('test.jpg')
text = pytesseract.image_to_string(image)
print(text)

用 Python 脚本对图片进行清理，利用 PIL 库，我们可以创建一个阈值过滤器来去掉渐变的背景色，只把文字留下来，从而让图片更加清晰，便于 Tesseract 读取:

from PIL import Image
import subprocess

def cleanFile(filePath, newFilePath):
    image = Image.open(filePath)

    # 对图片进行阈值过滤（低于143的置为黑色，否则为白色）
    image = image.point(lambda x: 0 if x < 143 else 255)
    # 重新保存图片
    image.save(newFilePath)

    # 调用系统的tesseract命令对图片进行OCR识别     
    subprocess.call(["tesseract", newFilePath, "output"])

    # 打开文件读取结果
    with open("output.txt", 'r') as f:
        print(f.read())

if __name__ == "__main__":
    cleanFile("text2.png", "text2clean.png")

从网站图片中抓取文字

下面的程序就是从网站图片中抓取文字：首先打开阅读器，收集图片的 URL 链接，然后下载图片，识别图片，最后打印每个图片的文字。因为这个程序很复杂，利用了前面几章的多个程序片段，所以我增加了一些注释以让每段代码的目的更加清晰：

import time
from urllib.request import urlretrieve
import subprocess
from selenium import webdriver
#创建新的Selenium driver
driver = webdriver.PhantomJS()

# 用Selenium试试Chrome浏览器:
# driver = webdriver.Chrome()

driver.get("http://www.amazon.com/War-Peace-Leo-Nikolayevich-Tolstoy/dp/1427030200")
# 单击图书预览按钮
driver.find_element_by_id("sitbLogoImg").click()
imageList = set()
# 等待页面加载完成
time.sleep(5)
# 当向右箭头可以点击时,开始翻页
while "pointer" in driver.find_element_by_id("sitbReaderRightPageTurner").get_attribute("style"):
    driver.find_element_by_id("sitbReaderRightPageTurner").click()
    time.sleep(2)
    # 获取已加载的新页面(一次可以加载多个页面,但是重复的页面不能加载到集合中)
    pages = driver.find_elements_by_xpath("//div[@class='pageImage']/div/img")
    for page in pages:
        image = page.get_attribute("src")
        imageList.add(image)
driver.quit()

# 用Tesseract处理我们收集的图片URL链接
for image in sorted(imageList):
    # 保存图片
    urlretrieve(image, "page.jpg")
    p = subprocess.Popen(["tesseract", "page.jpg", "page"], stdout=subprocess.PIPE,stderr=subprocess.PIPE)
    f = open("page.txt", "r")
    p.wait()
    print(f.read())

上一篇：小白突破百度翻译反爬机制，33行Python代码实现汉译英小工具！

下一篇： npm ERR! asyncWrite is not a function

爬虫之简单验证码处理

Windows 系统

Linux 系统

从网站图片中抓取文字

PHP 图像处理与SESSION制作超简单验证码的方法示例

python爬虫之自动登录与验证码识别

python爬虫之urllib,伪装,超时设置,异常处理的方法

Python爬虫之简单的爬取百度贴吧数据

python爬虫之验证码篇3-滑动验证码识别技术

Python图像处理之简单画板实现方法示例

Python之爬虫简单原理

python实现爬虫统计学校BBS男女比例之数据处理（三）

手把手教你学node.js之使用 superagent 与 cheerio 完成简单爬虫

玩转python爬虫之URLError异常处理