The invention discloses a dynamic configuration method and device for a Spark Streaming receiver in a large data platform. The method comprises the following steps: determining a nonlinear optimization objective function based on system throughput and data processing delay balance according to system throughput and data processing delay; solving a nonlinear optimization objective function to obtain a receiver; The optimal approximate solution is used as the number of receivers, and the number of receivers is sent to the network receiver. The network receiver allocates the receivers according to the number of receivers and cluster data to complete the dynamic configuration of receiver parallelism.
【技术实现步骤摘要】
一种大数据平台中SparkStreaming接收器动态配置方法及装置
本专利技术属于大数据处理的
,尤其是涉及一种大数据平台中SparkStreaming接收器动态配置方法及装置。
技术介绍
近些年来,“大数据”实时处理技术日益渗透到经济发展、社会进步和人类生活的各个领域,已经成为生产力中重要的活跃因素。目前传统批处理方式在计算过程中会发生大量的读写I/O,影响了流式数据的处理性能,传统的基于批次处理的分布式计算方式已经不能适应于实时处理的场景,因此流处理技术应运而生。分布式流处理系统在实际的生产和运用中会涉及到几十甚至几百个节点,由于各个节点的性能不同,节点故障和慢节点情况将变得很常见。在流处理背景下,由于需要在较短的时间内对数据进行处理,如果故障恢复和慢任务处理时间过长会导致系统的处理性能的降低甚至会影响计算的正确性。目前流处理系统如Storm、S4、Online和流式数据库等都是基于连续操作的模型,在这种模型中,长期运行带有状态的操作会接受每条记录,更新内部状态,并且发送新纪录,但是难以应付系统故障和慢任务问题。为了解决流处理系统的故障恢复和慢任务处理问题,有研究提出了一种叫DStream新的流处理模型。该处理模型将流式数据按照一定的粒度进行切分,并且将对流数据的运算转化为对切分后的数据进行批次运算。DStream模型提供了并行恢复模式,大大提高了系统恢复的效率,与此同时,Dstream通过推测执行机制对慢任务进行恢复处理,达到了对慢任务进行容错的目的。另外,DStream模型处理粒度较连续处理模型较大,延迟较连续处理模型较高。但是在定时数据统 ...
【技术保护点】
1.一种大数据平台中Spark Streaming接收器动态配置方法,其特征在于,该方法包括:根据系统吞吐量和数据处理时延,确定基于系统吞吐量和数据处理时延平衡的非线性优化目标函数;求解非线性优化目标函数得到接收器个数最优的近似解作为接收器个数,并将接收器个数发送至网络接收器;网络接收器根据接收的接收器个数和集群数据对接收器进行分配,完成接收器并行度动态配置。
【技术特征摘要】
1.一种大数据平台中SparkStreaming接收器动态配置方法,其特征在于,该方法包括:根据系统吞吐量和数据处理时延,确定基于系统吞吐量和数据处理时延平衡的非线性优化目标函数;求解非线性优化目标函数得到接收器个数最优的近似解作为接收器个数,并将接收器个数发送至网络接收器;网络接收器根据接收的接收器个数和集群数据对接收器进行分配,完成接收器并行度动态配置。2.如权利要求1所述的方法,其特征在于,在本方法中,采用NP难问题确定基于系统吞吐量和数据处理时延平衡的非线性优化目标函数,且非线性优化目标函数满足系统吞吐量大的同时数据处理时延小。3.如权利要求1所述的方法,其特征在于,所述系统数据处理时延为接收器端处理时延、CPU处理时延和传输时延之和;所述系统吞吐量根据接收器从系统外部抽取的数据量与系统数据处理时延确定;所述接收器从系统外部抽取的数据量根据接收器个数对所有接收器的单位时间内每个接收器的抽取数量与批次间时间间隔乘积求和。4.如权利要求3所述的方法,其特征在于,所述接收器端处理时延为接收器的总处理速度与外部数据到达接收器速度的函数;所述接收器的总处理速度服从每个接收器的处理速度的指数分布,所述外部数据到达接收器速度服从一定参数的泊松分布。5.如权利要求3所述的方法,其特征在于,所述CPU处理时延根据计算任务的批次处理数量与批次间时间间隔呈线性关系或非线性关系;若计算任务为单批次处理,则CPU处理时延与批次间时间间隔呈线性关系;否则,CPU处理时延与批次间时间间隔呈非线性关系。6.如权利要求1所述的方法,其特征在于,所述求解非线性优化目标函数得到接收器个数最优的近似解的具体步骤包括:设置第一初始解和第二初始解,设定第一初始解为初始化的接收器个数最优解,根据此执行一个时间间隔的流处理任务,并记录此时耗时;根据第一初始解和第二初始解设置初始温度,初始化外迭代次数,判断设定第一初始解或第二初始解的系统数据处理时延是否大于批次间时间间隔,若满足,则退出算法;否则继...
【专利技术属性】
技术研发人员:史玉良,王新军,陈志勇,胡静,臧淑娟,
申请(专利权)人:山东大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。