chi_tra.traineddata 60M+繁体中文语言包

0 次浏览 2025-05-31 0 条评论

zip

OCR Tesseract Python 图像识别繁体中文 pytesseract 语言数据包

繁体中文图像识别用的chi_tra.traineddata 最新版，文件60M+，意思就是里面的训练数据还挺全。你用Tesseract OCR配合Python，装上这个包，识别繁中图像的效果会好不少，像扫描书籍、截图啥的都挺靠谱。

Tesseract OCR本身就支持多语言，但默认没带繁体中文，要识别就得加上这个语言包。直接把chi_tra.traineddata丢进tessdata目录就行了，路径一般像/usr/share/tesseract-ocr/4.00/tessdata这种。

在Python项目里配合用pytesseract挺方便的，像这样：

import pytesseract
from PIL import Image
img = Image.open('text_traditional.png')
text = pytesseract.image_to_string(img, lang='chi_tra')
print(text)

图像最好预一下，比如灰度化、二值化、去噪，效果能提不少。图清晰一点，识别率会更高。还有别忘了指定 OCR 路径，不然识别失败：

pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract'

对了，--psm模式、--oem模式这些参数也能调调试试，挺灵活的。如果你经常繁中图像，这包装上真的省事。

文件大小：32.58MB