1.基本概念
并发变并行
多线程转变多JVM计算
内存计算(内存为主,磁盘为车铺),延迟计算,分阶段计算
RDD Resilient Distributed DataSet
弹性式分布计算集合 – 可并行计算、可重复计算
- 分区(partition) – 一个基本的计算单元,也是Spark并行计算的基础
- 分区计算函数 – 处理分区的数据,计算逻辑封装
- Partitioner – 如何分布分区中的数据
典型的就是在RDD之间按键值对进行Shuffle操作的时候(如reduceByKey,join),Spark需要 根据某种规则来决定分区中的键被重新分配到哪些分区(一般是通过键的哈希,类似于Kafka往 分区中发送消息的策略)。