chi_tra.traineddata 60M+繁体中文语言包

繁体中文图像识别用的chi_tra.traineddata 最新版,文件60M+,意思就是里面的训练数据还挺全。你用Tesseract OCR配合Python,装上这个包,识别繁中图像的效果会好不少,像扫描书籍、截图啥的都挺靠谱。

Tesseract OCR本身就支持多语言,但默认没带繁体中文,要识别就得加上这个语言包。直接把chi_tra.traineddata丢进tessdata目录就行了,路径一般像/usr/share/tesseract-ocr/4.00/tessdata这种。

Python项目里配合用pytesseract挺方便的,像这样:

import pytesseract
from PIL import Image

img = Image.open('text_traditional.png') text = pytesseract.image_to_string(img, lang='chi_tra') print(text)

图像最好预一下,比如灰度化、二值化、去噪,效果能提不少。图清晰一点,识别率会更高。还有别忘了指定 OCR 路径,不然识别失败:

pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract'

对了,--psm模式、--oem模式这些参数也能调调试试,挺灵活的。如果你经常繁中图像,这包装上真的省事。

zip 文件大小:32.58MB