Spark
sparkStreaming-Kafka
内容整理自: Spark streaming 消费 Kafka 的正确姿势
Spark Streaming + Kafka Integration Guide
接收 Kafka 数据
接收数据的方式有两种:
利用 Receiver 接收数据
直接从 Kafka…
Spark进阶-Spark调优总结
内容整理自: 三万字长文 | Spark 性能优化实战手册
开发调优
避免创建重复 RDD
尽可能复用同一个 RDD
对多次使用的 RDD 进行持久化
尽量避免使用 shuffle 类算子
使用 map-side 预聚合的 shuffle 操作,比如使用…
Spark基础-Spark作业提交
内容整理自: Spark 架构与作业执行流程
Spark 提交作业流程
名词概念
Application: 用户编写的 Spark 应用程序,包含了一个 Driver 功能的代码和分布在集群中多个节点上运行的 Executor 代码
Driver: Driver…
![cover](/_next/image?url=https%3A%2F%2Fcjwdream.top%2Fimage%2Fspark-scheduler.jpg&w=1920&q=75)
Spark进阶-Spark调度系统
一、主要工作流程 两个核心:DAGScheduler和TaskScheduler
build operator DAG
用户提交的 Job 将首先被转换为一系列RDD并通过 RDD 之间的依赖关系 (Dependency) 构建 DAG, 然后将 RDD 构成的 DAG…