spark概述与编程模型

spark快的原因
1.内存计算

创新互联公司主要从事成都网站建设、网站建设、网页设计、企业做网站、公司建网站等业务。立足成都服务廊坊,十多年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:18982081108

2.DAG

spark shell已经初始化好了SparkContext,直接用sc调用即可

spark概述与编程模型

lineage 血统

RDD wide and narrow dependencies

窄依赖每个 RDD partition最多被一个子RDD partirion依赖

spark概述与编程模型

/sbin(system binary)放的都是涉及系统管理的命令。
有些系统里面,普通用户没有执行这些命令的权限。
有些系统里面,普通用户的PATH不包括/sbin

data.cache  数据放到内存中

spark-submit提交任务

spark概述与编程模型

scala代码

package cn.chinahadoop.spark

import org.apache.spark.{SparkContext, SparkConf}
import scala.collection.mutable.ListBuffer
import org.apache.spark.SparkContext._

/**
 * Created by chenchao on 14-3-1.
 */
class Analysis {

}

object Analysis{

  def main(args : Array[String]){

    if(args.length != 2){
      println("Usage : java -jar code.jar  file_location save_location")
      System.exit(0)
    }

   

    val conf = new SparkConf()
    conf.setSparkHome("/data/software/crazyjvm/spark")
     

    val sc = new SparkContext(conf)
    val data = sc.textFile(args(0))

    data.cache

    println(data.count)

    data.filter(_.split(' ').length == 3).map(_.split(' ')(1)).map((_,1)).reduceByKey(_+_)
    .map(x => (x._2, x._1)).sortByKey(false).map( x => (x._2, x._1)).saveAsTextFile(args(1))
  }

}

名称栏目:spark概述与编程模型
网页地址:http://bzwzjz.com/article/ieicec.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 泸州网站建设 高端网站设计推广 成都响应式网站建设 成都网站建设流程 响应式网站设计 成都网站建设 网站制作 成都网站建设 四川成都网站建设 成都网站设计公司 自适应网站设计 成都网站制作 网站设计 网站建设开发 成都网站建设公司 网站建设费用 成都网站设计 定制级高端网站建设 成都营销网站建设 成都品牌网站建设 成都商城网站建设 梓潼网站设计