首页

后端开发

Java

Lucene快速入门：打造你的搜索引擎

22 次浏览 2024-07-04 0 条评论

pptx

Lucene 搜索引擎分词中文分词教程

实例介绍下载评论相关推荐

开源搜索引擎Lucene入门指南来啦！Lucene自带了一些分词器，例如WhitespaceAnalyzer、SimpleAnalyzer、StopAnalyzer、StandardAnalyzer、ChineseAnalyzer和CJKAnalyzer等，但前三个主要用于英文。想简单处理中文分词，可以用StandardAnalyzer，它会把每个字都看作一个词，虽然覆盖全面，但会导致索引文件过大，检索速度变慢。ChineseAnalyzer也是按字分的，效果和StandardAnalyzer差不多。CJKAnalyzer则按两个字切分，容易出错，产生无用信息，影响索引大小。因为这些自带的分词器都比较基础，实际使用时往往需要自己编写分词算法。目前中文分词算法主要分为三类：基于字符串匹配（机械分词）、基于理解和基于统计。其中，机械分词是将待处理的汉字串与一个大型词典进行匹配，如果在词典中找到，就认为识别出一个词。

文件大小：288.36KB

评论区

暂无评论，快来说点什么吧~

相关推荐

Apache Lucene 搜索引擎指南

Lucene全文搜索引擎的应用.pdf

Lucene搜索引擎源码示例

驾驭Lucene：Compass搜索引擎框架深度指南

Lucene企业搜索引擎实现与应用

Lucene 2.4.1全文搜索引擎源码分析

Lucene + SSH 框架实战：打造高效文件搜索引擎

Lucene搜索引擎原理与实践

Lucene在Struts中的搜索引擎应用

Lucene+Nutch搜索引擎开发（配套光盘资源）

Lucene Core 2.4.0功能丰富的搜索引擎框架解析

Lucene2.0与Heritrix搜索引擎光盘

VE搜索高效搜索引擎

垂直搜索引擎的研究与实现

图像搜索引擎

Everything：基于文件名的快速搜索引擎

搜索引擎实现指南.rar

搜索引擎页面分析,构建元搜索引擎(基于C#)

搜索引擎资源

Elasticsearch全文搜索引擎

评论区