中文文档Simhash计算项目

该项目用于计算中文文档的simhash值。Simhash是谷歌开发的一种用于文本去重的算法,现已广泛应用于文本处理领域。计算完成后,通过求海明距离获得最终的相似度。
zip 文件大小:2.24MB