Lucene中文分词公用组件V2.0
Lucene 中文分词公用组件 V2.0 挺好用的,是在 Linux 下,修正了之前版本的分词问题。这个版本的分词效果比较稳定,功能也完善。使用的时候,只需要引入MIK_CAnalyzer
,使用tokenStream
方法来文本就可以了。比如你想分词“联想笔记本电脑”,就可以通过这个组件轻松搞定。
有时候中文分词,尤其是带有特殊符号或复杂组合的词组时,Lucene 的分词效果会更。如果你在开发中需要用到中文分词,这个组件还不错。嗯,简单易用,功能也足够强大。
代码示例中,关键部分就是通过mik_canalyzer.tokenStream
来创建TokenStream
,依次读取每个Token
,并将它们保存到一个列表中。
这个版本的更新,了多 Linux 下的兼容问题,使用体验蛮不错的。如果你正在寻找一个稳定的中文分词工具,可以试试这个。
852.22KB
文件大小:
评论区