PySpark基本操作与应用
PySpark 的基本操作,说白了就是让你用 Python 写 Spark 代码,跑在分布式集群上还挺方便的。
数据、过滤、聚合这些,PySpark 都有现成的 API,像filter()
、groupBy()
都比较好用,语法也跟 Pandas 有点像,上手不会太难。
我比较推荐先从RDD
玩起,理解一下懒执行和转化动作的差别,之后再过渡到DataFrame
,效率和易用性都会更高。
如果你做过大数据,那你会发现 PySpark 挺适合 ETL 这种场景,跑得还蛮快的,而且还能接 Kafka、HDFS 这些大厂标配组件。
对了,遇到性能问题,试试persist()
或cache()
这些缓存机制,调优还挺有效。
顺带说下,下面这几篇文章也值得一看,有分布式开发、远程调用、RPC 框架相关的,跟 PySpark 配合用效果更好:
如果你想玩转大数据,PySpark 是个还不错的入门选择,是跟 Python 比较熟的朋友,用起来会更顺手。
18.65KB
文件大小:
评论区