Tesseract 4.0.0中文简体语言包
嗯,这个zho.traineddata.zip文件其实是 Tesseract OCR 引擎用的中文(简体)语言包。如果你在做图像文字识别,想支持中文,安装这个文件就对了。它的名字原本是chi_sim.traineddata
,后来改成了zho.traineddata
,就是为了更好地支持简体中文。
Tesseract OCR 是个开源项目,能将图片中的文字转化为可编辑的文本。像这种训练数据包,能让它更精准地识别简体中文,尤其适合在中国、香港、新加坡等地使用。
你只需要通过--lang=chi_sim
或者-l chi_sim
指定使用这个语言包,Tesseract 就会在图像时使用这个模型,提升识别精度。
如果你做 OCR 相关项目,是中文文本的识别,这个资源有用。记得在安装 Tesseract 时把它加上,提升识别效果。
需要注意的是,这个包是针对 Tesseract 4.0.0 版本的,适用的范围也挺广的。,对开发者而言,这可是个挺必备的工具哦。
26.18MB
文件大小:
评论区