批处理数据任务的节点管理方法与系统技术方案

技术编号:34431776 阅读:19 留言:0更新日期:2022-08-06 16:10
本申请提供的批处理数据任务的节点管理方法与系统,具体应用于数据处理领域,包括一个主控节点和多个从节点;获取待处理数据文件;将待处理数据文件输入BP神经网络模型进行分类;将待处理数据文件划分为多线数据文件,并封装成多线任务,在主控节点的任务缓冲队列中形成多个批次任务列表;将目标参数和待处理参数匹配,获得匹配度;获取任一批次任务列表的优先级;根据优先级和匹配度,对任一批次任务列表进行标记;将多个批次任务列表依次分配给各个从节点;各个从节点将接受的批次任务列表的任务存储到从节点的任务缓冲队列;获取并处理分发到从节点的任一批次任务列表的任务。通过该方法提高处理速度并减少资源消耗。通过该方法提高处理速度并减少资源消耗。通过该方法提高处理速度并减少资源消耗。

【技术实现步骤摘要】
批处理数据任务的节点管理方法与系统


[0001]本申请涉及数据处理领域,更具体地,涉及批处理数据任务的节点管理方法与系统。

技术介绍

[0002]随着公司业务扩张和新应用系统的建设,企业信息系统的数据日益集中,且数据量迅猛增长,对于数据的批量加工,统计分析需求也层出不穷。另一方面,为保证银行等企业的正常营业,限定了批处理的时间窗口。即为了保证正常营业,批处理数据只能在规定的时间段内进行处理。
[0003]现有技术中,通常进行批处理数据任务的方式是采用主控节点计算任一任务的耗重,计算得到分配到各个从节点上的任务之间的特定任务耗重分配比例,按照任务耗重分配比例将任务分配给各个从节点。然而这种方式的资源消耗量大,处理速度慢。
[0004]因此,如何对节点进行管理以提高批处理数据任务的处理速度并减少资源消耗量的问题,是一项亟待解决的技术问题。

技术实现思路

[0005]本专利技术实施例的目的在于提供批处理数据任务的节点管理方法与系统,通过BP神经网络模型构建多批次任务列表,同时引入优先级和参数匹配度两个变量确定批次任务列表分配等级,由此通过批处理数据任务的合理分配,提高处理速度并减少资源消耗。具体技术方案如下:在本专利技术实施例的第一方面,提供批处理数据任务的节点管理方法,应用于分布式服务器,包括一个主控节点和多个从节点,该方法还包括:获取待处理数据文件;将所述待处理数据文件输入BP神经网络模型,获得分类结果;根据所述分类结果,将所述待处理数据文件划分为多线数据文件;将所述多线数据文件封装成多线任务,并存储到所述主控节点的任务缓冲队列,在所述主控节点的任务缓冲队列中形成多个批次任务列表;其中,任一批次任务列表包含同一类别下的多个待处理数据文件;获取任一从节点的目标参数;其中,所述目标参数包括数据文件的类型、文件格式以及核心词;获取任一批次任务列表中待处理数据文件的待处理参数;计算所述目标参数与所述待处理参数之间的匹配度;获取任一批次任务列表的优先级;其中,优先级包括高优先级和低优先级;根据所述优先级和所述匹配度,对任一批次任务列表进行标记;若当前批次任务列表属于高优先级且匹配度大于预设阈值,则该批次任务列表标记为第一分配;若当前批次任务列表属于高优先级且匹配度小于预设阈值/低优先级且匹配度大于预设阈值,则该批次任务列表标记为第二分配;若当前批次任务列表属于低优先级且匹配度小于预设阈值,则该批次任务列表标记为第三分配;根据所述标记,将多个批次任务列表依次分配给各个从节点;各个从节点接收对应的批次任务列表的任务,并将其存储到从节点的任务缓冲队列;根据从节点的任务缓冲队列,获取并处理分发到从节点的任一批次任务列表的任务。
[0006]可选地,所述待处理数据文件包括:文章、新闻以及数据作业。
[0007]可选地,所述BP神经网络模型包括一个输入层、两个隐含层和一个输出层;采用BP神经网络和受限玻尔兹曼构建深度信念网络,并初始化所述BP神经网络模型的参数。
[0008]可选地,所述将所述待处理数据文件输入深度网络模型,获得分类结果,包括:提取所述待处理数据文件中包含词义信息的词汇;将所述包含词义信息的词汇输入DNN网络,构建词义融合特征;将所述词义融合特征输入BP神经网络模型,获得分类结果。
[0009]进一步地,该方法还包括:监控各从节点的数据采集状态,当从节点的节点数据更新延迟或异常时,则向该从节点的端口发送检测信号,如果检测信号的响应信号在预设次数和/或预设时间段内未达标,将该从节点视为故障服务节点,主控节点开始接管该从节点的任务列表。
[0010]进一步地,该方法还包括:实时监控主控节点的状态,若与主控节点的通信失败次数达到预设次数和/或通信失败时间达到预设时间段,则确定主控节点发生故障,启动竞争主控节点控制权程序。
[0011]在本专利技术实施例的又一方面,提供批处理数据任务的节点管理系统,应用于分布式服务器,包括一个主控节点和多个从节点,该系统还包括:分类模块,用于获取待处理数据文件;将所述待处理数据文件输入BP神经网络模型,获得分类结果;任务分发模块,用于根据所述分类结果,将所述待处理数据文件划分为多线数据文件;将所述多线数据文件封装成多线任务,并存储到所述主控节点的任务缓冲队列,在所述主控节点的任务缓冲队列中形成多个批次任务列表;其中,任一批次任务列表包含同一类别下的多个待处理数据文件;获取任一从节点的目标参数;其中,所述目标参数包括数据文件的类型、文件格式以及核心词;获取任一批次任务列表中待处理数据文件的待处理参数;计算所述目标参数与所述待处理参数之间的匹配度;获取任一批次任务列表的优先级;其中,优先级包括高优先级和低优先级;根据所述优先级和所述匹配度,对任一批次任务列表进行标记;若当前批次任务列表属于高优先级且匹配度大于预设阈值,则该批次任务列表标记为第一分配;若当前批次任务列表属于高优先级且匹配度小于预设阈值/低优先级且匹配度大于预设阈值,则该批次任务列表标记为第二分配;若当前批次任务列表属于低优先级且匹配度小于预设阈值,则该批次任务列表标记为第三分配;根据所述标记,将多个批次任务列表依次分配给各个从节点;任务接收模块,用于各个从节点接收对应的批次任务列表的任务,并将其存储到从节点的任务缓冲队列;根据从节点的任务缓冲队列,获取并处理分发到从节点的任一批次任务列表的任务。
[0012]可选地,所述待处理数据文件包括:文章、新闻以及数据作业。
[0013]可选地,所述BP神经网络模型包括一个输入层、两个隐含层和一个输出层;采用BP神经网络和受限玻尔兹曼构建深度信念网络,并初始化所述BP神经网络模型的参数。
[0014]可选地,所述将所述待处理数据文件输入深度网络模型,获得分类结果,包括:提取所述待处理数据文件中包含词义信息的词汇;将所述包含词义信息的词汇输入DNN网络,构建词义融合特征;将所述词义融合特征输入BP神经网络模型,获得分类结果。
[0015]进一步地,该系统还包括:从节点故障处理模块,用于监控各从节点的数据采集状态,当从节点的节点数据更新延迟或异常时,则向该从节点的端口发送检测信号,如果检测信号的响应信号在预设次数和/或预设时间段内未达标,将该从节点视为故障服务节点,主
控节点开始接管该从节点的任务列表。
[0016]进一步地,该系统还包括:主控节点故障处理模块,用于实时监控主控节点的状态,若与主控节点的通信失败次数达到预设次数和/或通信失败时间达到预设时间段,则确定主控节点发生故障,启动竞争主控节点控制权程序。
[0017]本专利技术的有益效果,如下所示:(1)本专利技术应用于分布式服务器,包括一个主控节点和多个从节点,主控节点用于存储多线任务、构建多个批次任务列表并将其分配给从节点,各个从节点用于接收、存储和处理对应的批次任务列表的任务。由此大大提高了批处理数据任务的处理速度并减少资源消耗。
[0018](2)采用BP神经网络模型对待处理数据文件分类,获得分类结果;根据所述分类结果,将所述待处理数据文件划分为多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种批处理数据任务的节点管理方法,其特征在于,应用于分布式服务器,包括一个主控节点和多个从节点,该方法还包括:获取待处理数据文件;将所述待处理数据文件输入BP神经网络模型,获得分类结果;根据所述分类结果,将所述待处理数据文件划分为多线数据文件;将所述多线数据文件封装成多线任务,并存储到所述主控节点的任务缓冲队列,在所述主控节点的任务缓冲队列中形成多个批次任务列表;其中,任一批次任务列表包含同一类别下的多个待处理数据文件;获取任一从节点的目标参数;其中,所述目标参数包括数据文件的类型、文件格式以及核心词;获取任一批次任务列表中待处理数据文件的待处理参数;计算所述目标参数与所述待处理参数之间的匹配度;获取任一批次任务列表的优先级;其中,优先级包括高优先级和低优先级;根据所述优先级和所述匹配度,对任一批次任务列表进行标记;若当前批次任务列表属于高优先级且匹配度大于预设阈值,则该批次任务列表标记为第一分配;若当前批次任务列表属于高优先级且匹配度小于预设阈值/属于低优先级且匹配度大于预设阈值,则该批次任务列表标记为第二分配;若当前批次任务列表属于低优先级且匹配度小于预设阈值,则该批次任务列表标记为第三分配;根据所述标记,将多个批次任务列表依次分配给各个从节点;各个从节点接收对应的批次任务列表的任务,并将其存储到从节点的任务缓冲队列;根据从节点的任务缓冲队列,获取并处理分发到从节点的任一批次任务列表的任务。2.根据权利要求1所述的批处理数据任务的节点管理方法,其特征在于,所述待处理数据文件包括:文章、新闻以及数据作业。3.根据权利要求1所述的批处理数据任务的节点管理方法,其特征在于,所述BP神经网络模型包括一个输入层、两个隐含层和一个输出层;采用BP神经网络和受限玻尔兹曼构建深度信念网络,并初始化所述BP神经网络模型的参数。4.根据权利要求3所述的批处理数据任务的节点管理方法,其特征在于,所述将所述待处理数据文件输入深度网络模型,获得分类结果,包括:提取所述待处理数据文件中包含词义信息的词汇;将所述包含词义信息的词汇输入DNN网络,构建词义融合特征;将所述词义融合特征输入BP神经网络模型,获得分类结果。5.根据权利要求1所述的批处理数据任务的节点管理方法,其特征在于,该方法还包括:监控各从节点的数据采集状态,当从节点的节点数据更新延迟或异常时,则向该从节点的端口发送检测信号,如果检测信号的响应信号在预设次数和/或预设时间段内未达标,将该从节点视为故障服务节点,主控节点开始接管该从节点的任务列表。6.根据权利要求1所述的批处理数据任务的节点管理方法,其特征在于,该方法还包
括:实时监控主控节点的状态,若与主控节点的通信失...

【专利技术属性】
技术研发人员:陈玉才孙海涛徐硕
申请(专利权)人:苏州优鲜信网络生活服务科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1