chi_tra.traineddata 60M+繁体中文语言包
繁体中文图像识别用的chi_tra.traineddata 最新版,文件60M+,意思就是里面的训练数据还挺全。你用Tesseract OCR配合Python,装上这个包,识别繁中图像的效果会好不少,像扫描书籍、截图啥的都挺靠谱。
Tesseract OCR本身就支持多语言,但默认没带繁体中文,要识别就得加上这个语言包。直接把chi_tra.traineddata
丢进tessdata
目录就行了,路径一般像/usr/share/tesseract-ocr/4.00/tessdata
这种。
在Python项目里配合用pytesseract
挺方便的,像这样:
import pytesseract
from PIL import Image
img = Image.open('text_traditional.png')
text = pytesseract.image_to_string(img, lang='chi_tra')
print(text)
图像最好预一下,比如灰度化、二值化、去噪,效果能提不少。图清晰一点,识别率会更高。还有别忘了指定 OCR 路径,不然识别失败:
pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract'
对了,--psm
模式、--oem
模式这些参数也能调调试试,挺灵活的。如果你经常繁中图像,这包装上真的省事。
32.58MB
文件大小:
评论区