PySpark基本操作与应用

PySpark 的基本操作,说白了就是让你用 Python 写 Spark 代码,跑在分布式集群上还挺方便的。

数据、过滤、聚合这些,PySpark 都有现成的 API,像filter()groupBy()都比较好用,语法也跟 Pandas 有点像,上手不会太难。

我比较推荐先从RDD玩起,理解一下懒执行和转化动作的差别,之后再过渡到DataFrame,效率和易用性都会更高。

如果你做过大数据,那你会发现 PySpark 挺适合 ETL 这种场景,跑得还蛮快的,而且还能接 Kafka、HDFS 这些大厂标配组件。

对了,遇到性能问题,试试persist()cache()这些缓存机制,调优还挺有效。

顺带说下,下面这几篇文章也值得一看,有分布式开发、远程调用、RPC 框架相关的,跟 PySpark 配合用效果更好:

如果你想玩转大数据,PySpark 是个还不错的入门选择,是跟 Python 比较熟的朋友,用起来会更顺手。

py 文件大小:18.65KB