Lucene快速入门:打造你的搜索引擎
开源搜索引擎Lucene入门指南来啦!Lucene自带了一些分词器,例如WhitespaceAnalyzer、SimpleAnalyzer、StopAnalyzer、StandardAnalyzer、ChineseAnalyzer和CJKAnalyzer等,但前三个主要用于英文。想简单处理中文分词,可以用StandardAnalyzer,它会把每个字都看作一个词,虽然覆盖全面,但会导致索引文件过大,检索速度变慢。ChineseAnalyzer也是按字分的,效果和StandardAnalyzer差不多。CJKAnalyzer则按两个字切分,容易出错,产生无用信息,影响索引大小。因为这些自带的分词器都比较基础,实际使用时往往需要自己编写分词算法。目前中文分词算法主要分为三类:基于字符串匹配(机械分词)、基于理解和基于统计。其中,机械分词是将待处理的汉字串与一个大型词典进行匹配,如果在词典中找到,就认为识别出一个词。
288.36KB
文件大小:
评论区