SparkStreaming+Kafka的两种模式Receiver模式和Direct模式

大数据

发布日期: 2019-07-19

文章字数: 440

阅读时长: 1 分

阅读次数:

SparkStreming + Kafka Receiver模式理解

Kafka的Receiver模式

Receiver模式理解

在SparkStreaming程序运行起来后，Executor中会有Receiver Tasks接收Kafka推送过来的数据。数据会被持久化，默认级别为MEMORY_AND_DISK_SER_2,这个级别也可以修改。Receiver Task对接收过来的数据进行存储和备份，这个过程会有节点之间的数据传输。备份完成后去ZooKeeper中更新消费偏移量，然后向Driver中的Receiver Tracker汇报数据的位置。最后Driver根据数据本地化将Task分发到不同节点上执行。

Receiver模式中存在的问题

当Driver进程挂掉后，Driver下的Executor都会被杀掉，当更新完ZooKeeper消费偏移量的时候，Driver如果挂掉了，就会存在找不到数据的问题，相当于丢失数据。

如何解决这个问题？

开启WAL(write ahead log)预写日志机制,在接受过来数据备份到其他节点的时候，同时备份到HDFS上一份（我们需要将接收来的数据的持久化级别降级到MEMORY_AND_DISK），这样就能保证数据的安全性。不过，因为写HDFS比较消耗性能，要在备份完数据之后才能进行更新ZooKeeper以及汇报位置等，这样会增加job的执行时间，这样对于任务的执行提高了延迟度。