停用词列表文件名为stopwords.txt,用于Python和Jieba分词。
Python 22 次浏览
本资源包含了自然语言处理中常用的停用词列表以及经过wiki语料训练得到的100维词向量。停用词是在文本处理中需要被过滤掉的常见词语,而词向量则是将词语表示为实数向量以便于计算机处理。这些资源可以在自然语言处理任务中用于文本预处理和特征表示。
Python 23 次浏览
简体中文的停用词,主要用于过滤掉大量没有实际含义的词组。这是一个补充版,提供更全面的过滤词汇。
Python 17 次浏览
常用汉字列表:3500常用汉字.txt 停用词列表:stop_words.txt 生僻字列表:生僻字.txt
Python 18 次浏览
包含 1208 个停用词的中文停用词表,适用于使用 jieba 分词工具进行文本分析前的预处理阶段,用于优化文本数据质量。
Python 19 次浏览