描述一下Spark的DAG原理?

发布时间:2022-06-29 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了描述一下Spark的DAG原理?脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

DAG(Directed Acyclic Graph)有向无环图,Spark中使用DAG对RDD的关系进行建模,描述了RDD的依赖关系,这种关系也被称之为lineage"血统",RDD的依赖关系使用DePEndency维护,Dependency分为依赖(一个父RDD被多个子RDD分区使用,有shuffle)和窄依赖(一个父RDD只被一个子RDD分区使用),DAG在Spark中对应的实现为DAGScheduler。

用户提交的Flink Job会被转化成一个DAG任务运行。一个Flink任务的DAG生成计算图大致经历以下三个过程:

StreamGraph最接近代码所表达的逻辑层面的计算拓扑结构,按照用户代码的执行顺序向

StreamExecutionenvironment添加StreamTransformation构成流式图。JobGraph从、StreamGraph生成,将可以串联合并的节点进行合并,设置节点之间的边,安排资共享slot槽位和放置相关联的节点,上传任务所需的文件,设置检查点配置等。相当于经过部分初始化和优化处理的任务图。

ExecutionGraph由JobGraph转换而来,包含了任务具体执行所需的内容,是最贴近底层实现的执行图。了解更多大数据培训相关技内容欢迎关注小编!

脚本宝典总结

以上是脚本宝典为你收集整理的描述一下Spark的DAG原理?全部内容,希望文章能够帮你解决描述一下Spark的DAG原理?所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。