收藏本站

快速投稿

企业专区

企业入驻

广告服务

基石导航

峰会活动

开启辅助访问

大数据中国»社区 › 资源共享 › 行业资料 › spark 系列教程（四十）：RDD 编程二次排序、mapjoin ...

返回列表发新帖

查看: 1223|回复: 0

spark 系列教程（四十）：RDD 编程二次排序、mapjoin

42 主题	0 回帖	204 积分

积分: 204

发表于 2018-3-16 13:55:10 | 显示全部楼层 |阅读模式

1.二次排序

自定义比较类用于key

用spark rdd实现二次排序

程序结果

借助之前封装的orcutil，把结果保存为ORC格式的文件，注意输出hadoop格式时要将rdd转成pairrdd

程序运行结果

版权声明:原创作品,允许转载，转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海牛部落－青牛,http://hainiubl.com

回复

返回列表发新帖

大数据行业交流

大数据行业交流

大数据求职招聘

大数据求职招聘

站长电话：
15010106923

微信联系：
hb-0310

站长邮箱：
ab12-120@163.com

大数据中国微信

版权所有： Discuz! © 2001-2013 大数据.

GMT+8, 2024-4-20 23:35 , Processed in 0.134638 second(s), 24 queries .

快速回复 返回顶部 返回列表