文本分类实验报告概述
这份报告详细记录了文本分类的整个处理流程,包括对24万条搜狗预料库的处理、jieba分词、停用词及无关词处理,以及词袋模型的构建,其中采用了CHI值检验进行特征筛选,tfidf作为特征向量值。文本分类使用了自编朴素贝叶斯和sklearn包中的SVM进行效果检测,并通过混淆矩阵和ROC曲线展示了实验结果。有兴趣的读者可以参考报告和博客中的详细解释。
6.23MB
文件大小:
评论区