以管理员权限打开cmd控制台。
1.如何安装PIL
输入下面命令:pip install Pillow
参考:
2.安装pytesseract
输入下面命令:pip install pytesseract
详细见下图:
3.安装文字识别包tesseract-ocr()
tesseract识别算法开源代码见。
下载如下链接中的安装exe文件进行安装:
安装路径如下:C:\Program Files (x86)\Tesseract-OCR
注意:请将所有可以勾选的都勾选上。
4.修改Python37中的pytesseract.py配置。
打开文件C:\Program Files\Python37\Lib\site-packages\pytesseract\pytesseract.py,将下面语句找到
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'替换成
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
#tesseract_cmd = 'tesseract'tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'5.测试一下安装是否成功。
在D盘底下新建一个文件夹tesseractTest,并在该文件夹底下新建一个文件testTesseract.py, 内容如下:
1 # _*_ coding: utf-8 _*_2 from PIL import Image3 import pytesseract4 5 aaa = pytesseract.image_to_string(Image.open('aaa.png'), lang='chi_sim')6 print(aaa)
新开一个cmd终端,执行如下语句:
python testTesseract.py
可以看到下图中的输出:
其中aaa.png和bbb.png内容如下:
aaa.png
bbb.png