IK分词器1500条常用停止词库
IK 分词器的常用停止词库,1500 个词,清理文本杂音还挺方便的。你用 Elasticsearch 做中文搜索时,少不了要这些“没啥实际意义”的词,比如“”“”“一个”这类,用上这个库,能帮你省不少事。
停止词库其实就是在分词的时候,把一些常见但无用的词先过滤掉,不让它们出现在搜索结果里。这个库覆盖得还挺广,适配 IK 分词器顺,拿来就能用,放进 stopword.dic
里效果立马见。
库本身是纯文本格式的,你直接塞到 IKAnalyzer.cfg.xml
指定的路径下就行。对接 Elasticsearch 配置的时候,别忘了设置 stopwords_path
,不然不起作用。
适配版本上基本没问题,从老版本的 5.5 到现在 7.x 系列都能搞定。如果你用的是 Docker 方式部署 ES + IK,可以参考这个安装文档:CentOS 7 使用 Docker Compose 安装 Elasticsearch 7.x,讲得还挺细的。
想了解 IK 分词底层原理的,也可以看看这篇IK 分词技术解析,写得通俗易懂,顺带还提到了词库优化的做法。
,如果你在做中文搜索优化,或者搞知识图谱、问答系统那一挂的项目,这个停用词库还是蛮值得一用的。如果你词库里自己也有定制内容,那可以拿这个做个基础,再慢慢扩充也行。
12.58KB
文件大小:
评论区