项目总结与词云图应用解析——TMDb数据分析

第五章 项目回顾与总结

本项目是我在学习用Python进行数据分析的过程中,做的一个练习项目,按照最常见的典型步骤——提出问题、理解数据、数据清洗、数据分析及可视化、项目报告——对TMDb做数据分析。数据集来源于Kaggle平台上的经典项目TMDb,数据集共两个文档:tmdb_5000_movies和tmdb_5000_credits。由于现在Kaggle官方网站无法注册,导致无法下载数据集,所以本项目数据集并不是在Kaggle上下载的,而是查阅了网上很多对TMDb进行数据分析文章的附件里下载的,两个数据集都是txt格式的。

分析的目的是发现电影流行的趋势,找到电影投资的方向,为行业新入局者提供参考建议。分析思路采用了细分-横切,从各个维度分析得到关键信息,分析方法采用了可视化。主要使用的工具有Python编程语言pandas数据分析库。在数据清洗过程中,尽量采用了多种方法,体会了各自的差异和优劣,重点在于特征提取,灵活运用各种方法才能让脚本更高效简洁。

在数据分析及可视化的过程中,重点是构造合适的数据框,涉及到pandas中重要的分组和聚合操作。构造数据框的操作多样且灵活,需要多多练习、思考和总结。可视化操作按照基本固定程序实现。本次数据分析项目仍存在不足,后续需继续补充以下几个方面:

1. 对分析思维做综述(介绍、特点、对比);

2. 对分析方法和工具做综述(介绍、特点、对比);

3. 熟练掌握数据清洗的常用方法和函数;

4. 学习如何在图形中调用函数、设置次坐标轴参数;

5. 使用词云图进行文字数据可视化。

本项目通过深入的分析过程,帮助初学者建立从数据清洗到可视化的基本框架,为后续项目提供了宝贵经验。

pdf 文件大小:266.88KB