Spark中的共享变量_心得技巧

心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: 线程同步下一篇:FastDDS 安装过程的坑🕳坑...

Spark中的共享变量

发布时间：2022-06-30 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了Spark中的共享变量，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

Spark中术语解释

Application：基于Spark的应用程序，包含了driver程序和集群上的executor

DriverPRogram：运行main函数并且新建SparkContext的程序

ClusterManager：在集群上获取资源的外部服务(例如 standalone,Mesos,Yarn )

WorkerNode：集群中任何可以运行应用用代码的节点

Executor：是在一个workernode上为某应用用启动的一个进程，该进程负责运行任务，并且负责将数据存在内存或者磁盘上。每个应用用都有各自自独立的executors

Task：被送到某个executor上的执行单元

累加器

在Driver端定义：sc.longAccumulator 在算子内部进行累加在Driver端汇总累加器支持在所有不同节点之间进行累加计算

Spark中的共享变量

广播变量

在Driver端广播：sc.broadcast() 在算子内部取用，不能进行修改广播到每个Executor中用完记得“销毁” 如果直接将数据封装task中，会产生很多副本，增加网络传输的数据量，降低效率，因为task的数量远大于Executor的数量

Spark中的共享变量

import java.lang

import org.apache.COMmons.lang3.StringUtils
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.util.LongAccumulator
import org.apache.spark.{SparkConf, SparkContext}

object Demo18ShareVARiable {
  def main(args: Array[String]): UnIT = {
    val conf: SparkConf = new SparkConf().setAppName(" ").setMaster("local")
    val sc: SparkContext = new SparkContext(conf)
    val lines: RDD[String] = sc.textFile("spark/data/words2.txt")
    //需求:
    // 以词频统计WordCount程序为例，处理的数据word2.txt所示，包括非单词符号，
    // 做WordCount的同时统计出特殊字符的数量
    //创建一个计数器/累加器
    val mycounter: LongAccumulator = sc.longAccumulator("mycounter")
    //定义一个特殊字符集合
    val ruleList: List[String] = List(",", ".", "!", "#", "$", "%", "(", ")")
    //将集合作为广播变量广播到各个节点
    val broadcast: Broadcast[List[String]] = sc.broadcast(ruleList)
    //TODO 2.transformation
    val wordcountResult: RDD[(String, Int)] = lines.filter(StringUtils.isNoneBlank(_))
      .flatMap(_.split("\s+"))
      .filter(ch => {
        //获取广播数据
        val list: List[String] = broadcast.value
        if (list.contains(ch)) { //如果是特殊字符
          mycounter.add(1)
          false
        } else { //是单词
          true
        }
      }).map((_, 1))
      .reduceByKey(_ + _)

    //TODO 3.sink/输出
    wordcountResult.foreach(println)
    val chresult: lang.Long = mycounter.value //特殊字符数量
    println("特殊字符的数量:"+chResult)
  }
}

脚本宝典总结

以上是脚本宝典为你收集整理的Spark中的共享变量全部内容，希望文章能够帮你解决Spark中的共享变量所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：java list load load master php python spark String wordcount 程序员程序员资源资源

上一篇: 线程同步下一篇:FastDDS 安装过程的坑🕳坑...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多