学习spark任何的知识点之前,先对spark要有一个正确的理解,可以参考:正确理解spark
成都创新互联公司-专业网站定制、快速模板网站建设、高性价比江门网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式江门网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖江门地区。费用合理售后完善,十余年实体公司更值得信赖。本文对join相关的api做了一个解释
SparkConf conf = new SparkConf().setAppName("appName").setMaster("local"); JavaSparkContext sc = new JavaSparkContext(conf); JavaPairRDDjavaPairRDD = sc.parallelizePairs(Arrays.asList(new Tuple2<>(1, 2), new Tuple2<>(3, 4), new Tuple2<>(3, 6), new Tuple2<>(5, 6))); JavaPairRDD otherJavaPairRDD = sc.parallelizePairs(Arrays.asList(new Tuple2<>(3, 9), new Tuple2<>(4, 5))); //结果: [(4,([],[5])), (1,([2],[])), (3,([4, 6],[9])), (5,([6],[]))] System.out.println(javaPairRDD.cogroup(otherJavaPairRDD).collect()); //结果: [(4,([],[5])), (1,([2],[])), (3,([4, 6],[9])), (5,([6],[]))] // groupWith和cogroup效果是一模一样的 System.out.println(javaPairRDD.groupWith(otherJavaPairRDD).collect()); //结果: [(3,(4,9)), (3,(6,9))] //基于cogroup实现的,就是取cogroup结果中相同key在两个RDD都有value的数据 System.out.println(javaPairRDD.join(otherJavaPairRDD).collect()); //结果: [(1,(2,Optional.empty)), (3,(4,Optional[9])), (3,(6,Optional[9])), (5,(6,Optional.empty))] //基于cogroup实现的,结果需要出现的key以左边的RDD为准 System.out.println(javaPairRDD.leftOuterJoin(otherJavaPairRDD).collect()); //结果: [(4,(Optional.empty,5)), (3,(Optional[4],9)), (3,(Optional[6],9))] //基于cogroup实现的,结果需要出现的key以右边的RDD为准 System.out.println(javaPairRDD.rightOuterJoin(otherJavaPairRDD).collect()); //结果: [(4,(Optional.empty,Optional[5])), (1,(Optional[2],Optional.empty)), (3,(Optional[4],Optional[9])), (3,(Optional[6],Optional[9])), (5,(Optional[6],Optional.empty))] //基于cogroup实现的,结果需要出现的key是两个RDD中所有的key System.out.println(javaPairRDD.fullOuterJoin(otherJavaPairRDD).collect());
从上可以看出,最基本的操作是cogroup这个操作,下面是cougroup的原理图:
如果想对cogroup原理更彻底的理解,可以参考:spark core RDD api原理详解
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。