Python三国红楼人物频次词云分析
用 Python 玩转《三国演义》和《红楼梦》的文本,真的挺有意思的。项目主要做了三件事:中文分词、人物频次统计和词云图可视化。对中文文本感兴趣的你,刚好可以上手练练。分词用的是常用的jieba
,词云图就靠wordcloud
了,都是常见的库,安装也简单。
用jieba.lcut()
先把小说拆成词,再从中找出你关心的人物,比如刘备、贾宝玉这些,数一数谁出场多。这一步有点像抓关键词,但多了点手工配人物名的活儿。没啥复杂逻辑,if word in list
就够用了,思路清晰。
词云图的部分挺出片的,尤其用点艺术字体再加点调色,就有“视觉冲击力”。WordCloud(font_path='simhei.ttf')
别忘了设字体,不然中文显示不出来哦。你甚至可以做两张图,一张三国,一张红楼,对比一下风格,蛮有趣的。
这个项目比较适合刚接触自然语言
的朋友,代码量不多,逻辑也好理解。你也可以加点玩法,比如情感、人物关系图、甚至加点 echarts 的交互。你想拓展空间,还蛮大的。
如果你刚学 Python,又对文学文本有兴趣,这个项目真的合适。建议用 Jupyter Notebook 来做,调试方便,图也能直接展示。
10.73MB
文件大小:
评论区