Elasticsearch (ES) 是一款开源的分布式搜索引擎,基于 Apache Lucene 实现。ES 提供了强大的中文分词功能,其中 ik 分词器是专门为中文文本设计的,具有准确、高效的特点。
C# 19 次浏览
ik 分词器的资源包还挺全的,适合你折腾中文搜索相关的需求。支持 Elasticsearch、Solr 这些主流搜索引擎,能自定义词典、停止词啥的,扩展性也还不错。网上整理了一堆相关资源,从快速使用到自定义词库应有尽有,新手老鸟都能找到适合的版本。哦对了,有些版本是直接能拿来用的,节省不少环境配置的
JavaME 0 次浏览
IK 分词器的常用停止词库,1500 个词,清理文本杂音还挺方便的。你用 Elasticsearch 做中文搜索时,少不了要这些“没啥实际意义”的词,比如“”“”“一个”这类,用上这个库,能帮你省不少事。 停止词库其实就是在分词的时候,把一些常见但无用的词先过滤掉,不让它们出现在搜索结果里。这个库覆
PHP 0 次浏览
ik分词技术,以其高效精准的特性,在分词领域占据一席之地。该技术不仅涵盖ik分词算法,还融合了海量查询处理机制,确保在处理大规模文本数据时能够保持高效稳定。ik分词技术以其独特的分词策略和灵活的查询能力,成为自然语言处理领域的得力助手。
JavaME 26 次浏览
IK分词器为我们词供了三类词表分别是:1、主词表main2012.dic 2、量词表quantifier.dic 3、停用词stopword.dic。 Dictionary为字典管理类中,分别加载了这个词典到内存结构中。具体的字典代码,位于org.wltea.analyzer.dic.DictSeg
Java 18 次浏览