Lucene 3.0.3+盘古分词资源汇总
Lucene 3.0.3 和盘古分词的组合,算是老牌又稳定的中文搜索引擎搭档了。
Lucene 的全文检索能力不用多说,Java 写的,接口简单,用起来挺顺手。3.0.3 虽然有点老,但胜在稳定,拿来做旧项目或者轻量系统,完全没问题。
盘古分词专门为中文优化,能识别多音字、成语、网络词这些不好搞的词,跟 Lucene 配合起来,索引效果还不错。尤其是搜索结果,相关性更高,用起来比较贴近中文习惯。
整合其实也不复杂,核心就是把默认的Analyzer替换成PanGuAnalyzer
,加载好dict
字典就能开工。倒排索引也照常生成,查询接口那边稍微下分词逻辑就行。
说到字典,这玩意儿挺关键,字典不行,分出来的词就不准,搜索命中率自然就差。可以用压缩包里的dict
文件,也能自己扩展,加上行业词、用户词都行。
项目里记得配置好所有.dll
和.jar
,比如lucene-core.jar
、PanGuAnalyzer.dll
这些,缺一就跑不起来。路径、引用啥的最好整理清楚,不然一调试半天。
如果你有个旧系统要接中文搜索,这套资源还蛮实用的;或者你想搞懂中文分词+全文索引的底层逻辑,用它来练手也挺合适的。
2.47MB
文件大小:
评论区