2016年2月1日星期一

Spark的缓存

Spark在第一次调用动作并计算出RDD结果后,该动作的结果可以存储在集群的内存或者磁盘上,这样下一次需要调用依赖该RDD的动作时,就不需要从依赖关系中重新计算RDD,数据可以从缓存分区中直接返回。

例如,
cached.cache()
cached.count()
cached.take(10)
调用count时会导致第一次计算RDD,然后又需要计算take的动作,调用take时, 访问的是已经缓存好的元素,不需要再做计算。

没有评论:

发表评论