这篇文章给大家介绍 Spark 原理架构图是怎样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
Task 是在集群上运行的基本单位。一个 Task 负责处理 RDD 的一个 partition。RDD 的多个 patition 会分别由不同的 Task 去处理。当然了这些 Task 的处理逻辑完全是一致的。这一组 Task 就组成了一个 Stage。有两种 Task:
org.apache.spark.scheduler.ShuffleMapTask
org.apache.spark.scheduler.ResultTask
ShuffleMapTask 根据 Task 的 partitioner 将计算结果放到不同的 bucket 中。而 ResultTask 将计算结果发送回 Driver Application。一个 Job 包含了多个 Stage,而 Stage 是由一组完全相同的 Task 组成的。最后的 Stage 包含了一组 ResultTask。
关于 Spark 原理架构图是怎样的就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。