Lucene 2.9.0DuplicateFilter去重查询

lucene 的 DuplicateFilter 挺实用的,尤其你在做类似 SQL 里group by这种去重查询时,用它省心不少。直接配好lucene-queries-2.9.0.jar,就能用org.apache.lucene.search.DuplicateFilter来搞定文档层级的去重,逻辑清晰,写法也不复杂。

jar 包里自带源码,调试的时候方便,不用再满世界找实现逻辑。加上的pom.xml配置,直接丢进 Maven 项目里就能跑,配起来也快,挺适合懒人。

你要是 Maven 还不熟,可以看看下面这几篇文章: Maven POM 文件配置maven 环境配置 pom 文件示例,都比较实用。

实际用的时候,比如你用 Lucene 查一堆新闻,但你只想看每个title最新的一篇,那就合适。加个DuplicateFilter,按title做 key,一步到位,查询结果就干净多了。

如果你是用 IDEA 开发,别忘了配下 Maven 环境,文章IDEA 配置 Maven 详解也能帮上忙。

提醒一句,这个DuplicateFilter虽然好用,但毕竟是 2.9.0 版本里的,老一点。你项目要是走新版本 Lucene,就得换用现在的GroupingSearch或者别的方案了。

rar 文件大小:63KB