ICTCLAS 5.0Windows 32位中文分词组件
中科院计算所的ICTCLAS50_Windows_32_C
是个挺老牌但还挺好用的中文分词工具。功能比较全,分词、词性标注、命名实体识别都能搞定,而且支持自定义词典,调起来也不麻烦。
用 C 语言写的,性能上比较靠谱,跑在 Windows 上响应还挺快。适合那种对资源消耗要求高、对速度比较敏感的场景,比如服务端预文本啥的。你要是对大语言模型之前的分词技术感兴趣,拿它练手还蛮不错。
它也有 Java 和 C#的版本,想集成进不同项目也不难。哦对了,它还有新词识别功能,在那种用户生成内容时挺有用,比如论坛、弹幕、社交平台这些。
如果你想深入了解相关技术,像Jieba、中文分词的聚类、词性标注这类内容,下面这些链接可以顺着看看,都是比较实用的资料。
,如果你做的是和中文文本打交道的项目,是偏底层的,ICTCLAS
还挺值得一试的。自己加个用户词典,再调调输出格式,用起来还蛮顺手的。
8.67MB
文件大小:
评论区