Spark 为什么比 MapReduce 快

耗子收录于学习

2022-12-08 约 250 字预计阅读 1 分钟

Spark 为什么比 MapReduce 快?

Spark 是基于内存计算，MapReduce 是基于磁盘运算，所以速度快
MapReduce 在 Shuffle 时需要花费大量时间进行排序；Spark 在 Shuffle 时则只有部分场景才需要排序。
MapReduce 的 Map Task 和 Reduce Task 都是进程级别的，每次启动都需要重新申请资源，消耗了不必要的时间；而 Spark Task 则是基于线程模型的，Spark 通过复用线程池中的线程来减少启动、关闭 task 所需要的开销。
Spark 还拥有容错机制Lineage

参考链接