Lucene 3.0.3+盘古分词资源汇总

Lucene 3.0.3 和盘古分词的组合,算是老牌又稳定的中文搜索引擎搭档了。

Lucene 的全文检索能力不用多说,Java 写的,接口简单,用起来挺顺手。3.0.3 虽然有点老,但胜在稳定,拿来做旧项目或者轻量系统,完全没问题。

盘古分词专门为中文优化,能识别多音字成语网络词这些不好搞的词,跟 Lucene 配合起来,索引效果还不错。尤其是搜索结果,相关性更高,用起来比较贴近中文习惯。

整合其实也不复杂,核心就是把默认的Analyzer替换成PanGuAnalyzer,加载好dict字典就能开工。倒排索引也照常生成,查询接口那边稍微下分词逻辑就行。

说到字典,这玩意儿挺关键,字典不行,分出来的词就不准,搜索命中率自然就差。可以用压缩包里的dict文件,也能自己扩展,加上行业词、用户词都行。

项目里记得配置好所有.dll.jar,比如lucene-core.jarPanGuAnalyzer.dll这些,缺一就跑不起来。路径、引用啥的最好整理清楚,不然一调试半天。

如果你有个旧系统要接中文搜索,这套资源还蛮实用的;或者你想搞懂中文分词+全文索引的底层逻辑,用它来练手也挺合适的。

rar 文件大小:2.47MB