CHEN Xiaoyu's blog: Spark的缓存

2016年2月1日星期一

Spark的缓存

Spark在第一次调用动作并计算出RDD结果后，该动作的结果可以存储在集群的内存或者磁盘上，这样下一次需要调用依赖该RDD的动作时，就不需要从依赖关系中重新计算RDD，数据可以从缓存分区中直接返回。

例如，
cached.cache()
cached.count()
cached.take(10)
调用count时会导致第一次计算RDD，然后又需要计算take的动作，调用take时，访问的是已经缓存好的元素，不需要再做计算。

没有评论:

发表评论

订阅：博文评论 (Atom)