中文文档Simhash计算项目
该项目用于计算中文文档的simhash值。Simhash是谷歌开发的一种用于文本去重的算法,现已广泛应用于文本处理领域。计算完成后,通过求海明距离获得最终的相似度。
2.24MB
文件大小:
评论区