Spark 2.5.8大数据处理框架
Spark 的 2.5.8 版本,挺适合最近在搞大数据的你升级试试看。核心模块那块,调度算法估计又优化了一波,跑任务更稳,资源用得也更顺手。
结构化数据用Spark SQL,还是熟悉的味道,但多了点小惊喜。对接Hive、HDFS这些老伙计更顺,查询也提速了,跑报表啥的舒服多了。
玩实时流的,用Spark Streaming的可以注意下,2.5.8 在稳定性和延迟控制上感觉下了功夫,像是接Kafka那种高吞吐的数据源,也能应付得住。
MLlib也是个亮点,新算法估计加了不少,老算法也调了调,训练快了,调参也没那么痛苦了。尤其搞推荐系统、分类这些,试试看效果还挺不错的。
图数据?GraphX那边也有动作,听说图遍历和子图提取这些性能更好了,跑社交网络会比较香。
另外 API 方面,Java、Scala、Python、R几个接口也有小优化,多语言协同开发也更顺畅了。哦对了,集群管理上对YARN、Mesos这些兼容性也加强了。
如果你最近刚好在做流项目或者需要多语言集成,2.5.8 版本挺值得升一下。想深入的可以看看《精通 Spark SQL》,或者想搞项目实战的也可以参考下《MLlib 智能客户系统项目记录》。
40.52MB
文件大小:
评论区