Education-Online教育数据处理全流程
教育类数据的全流程打包资源,从.dwd
到.dws
,再到用户行为,整个流程设计得还挺全。数据清洗、脱敏、降维、宽表建模这些都有提到,而且用的是Spark SQL
、DF API
、DS API
这些常见做法,适合熟悉大数据栈的前端或数仓开发看看思路。
数据部分的字段脱敏规则写得比较清楚,比如哪些字段需要加密、怎么存基础表,还有用户行为指标像注册来源、试卷得分、用户支付等,全都汇总进来,做产品或者埋点埋的比较细的项目也能参考参考。
另外还讲了几种join
方式的对比——Spark SQL语法直观,DataFrame API类型安全,RDD操作灵活但复杂,选哪个看你具体场景。你如果对性能和语法简洁有要求,DF + SQL
组合挺合适。
几个模块用得也挺实际,比如用户注册统计,通过url
来判断来源;做题模块还有试卷得分分布、难度评估。这些细节挺适合想搞在线教育平台或用户画像的开发者看看。
哦对了,和它相关的几个资源也值得逛一圈:前端小程序模板、React+TS 教育平台、数据清洗脚本这些配合起来用,效率更高。
如果你刚好在做教育类的数据或者大数据实战项目,这个education-online.zip
挺值得一试的,省掉不少重复踩坑的时间。
130.96MB
文件大小:
评论区