CHEN Xiaoyu's blog
2016年2月1日星期一
Spark的缓存
Spark在第一次调用动作并计算出RDD结果后,该动作的结果可以存储在集群的内存或者磁盘上,这样下一次需要调用依赖该RDD的动作时,就不需要从依赖关系中重新计算RDD,数据可以从缓存分区中直接返回。
例如,
cached.cache()
cached.count()
cached.take(10)
调用count时会导致第一次计算RDD,然后又需要计算take的动作,调用take时, 访问的是已经缓存好的元素,不需要再做计算。
没有评论:
发表评论
较新的博文
较早的博文
主页
订阅:
博文评论 (Atom)
没有评论:
发表评论