【技术实现步骤摘要】
一种大数据批处理任务运行时间的预测方法和装置
[0001]本专利技术涉及电数字数据处理
,具体涉及一种大数据批处理任务运行时间的预测方法和装置
。
技术介绍
[0002]目前,大数据批处理在实际的软件项目开发中变得越来越常见
。
并且大数据的批处理任务数量呈现急剧增加的状态,在实际的生产中,受硬件资源和业务需求的限制,需要对这些大量的大数据任务进行有效管理,以达到最大限度的利用硬件资源,最块生产出业务数据的目标
。
但是大数据批处理任务受多种外部环境的影响,如何合理分配资源,有效的编排这些任务变得十分重要
。
当在已知的资源的情况下,需要管理这些任务,能够预测这些任务的运行时间就变得十分重要,可以在充分利用资源的情况下,选择时间最短的编排方法
。
[0003]传统对应大数据批处理时间预测的方法主要有两种:
1.
通过相似度的方法来进行预测
。
即通过已经在环境上运行的已有的相似的任务,来评估目标任务的运行时间; />2.
通本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种大数据批处理任务运行时间的预测方法,其特征在于:包括以下步骤:
S1、
将批处理任务拆分为多个操作,准备基准数据,提取批处理任务运行的时间影响因素并建立基础程序;
S2、
将所述基准数据和所述基准程序在目标环境上进行运行,生成运行日志数据,然后数据采集程序将所述运行日志数据进行组装并结合服务器硬件信息得到得到基准程序运行时间样本;
S3、
使用所述基准程序运行时间样本进行模型训练并进行大数据批处理任务运行时间的预测,将所述基准程序运行时间样本分为训练数据集和测试数据集,通过所述训练数据集来训练得到模型,再使用所述测试数据集对所述模型进行测试,当结果可信度达到阈值以上时得到训练结果模型;
S4、
将待预测大数据批处理任务按照步骤
S1
进行拆分为多个操作并提取所述时间影响因素后输入所述训练结果模型,结合时间影响因素对各个操作的运行时间进行预测,最后汇总结果得到预测的批处理任务时间,一种大数据批处理任务运行时间的预测方法完成
。2.
根据权利要求1所述的一种大数据批处理任务运行时间的预测方法,其特征在于:步骤
S1
包括:
S11、
将批处理任务依据任务的子节点拆分为多个操作并进行分类得到操作类型,所述操作类型包括:输入操作
、
行处理操作
、
列处理操作
、
输出操作
、
流程控制操作和扩展节点操作;
S12、
准备至少两份基准数据,基准数据的信息包括:数据量
、
存储介质
、
字段数量
、
数据容量
、
数据编码;
S13、
提取批处理任务的所述时间影响因素,所述时间影响因素包括:程序运行资源字段影响因素
、
服务器资源字段影响因素和数据集合信息字段影响因素;
S14、
针对每一个所述操作类型结合所述基准数据的信息
、
所述时间影响因素形成一个基准程序流程,再将全部的所述基准程序流程合成得到所述基准程序;所述基准程序的流程为:获取程序运行范围配置,找出启用为1的操作类型,形成待处理操作类型集合;利用枚举工具类,由待处理操作类型集合关联出待处理实现类;求出运行参数,所述运行参数包括运行内存上限
、
运行核数上限
、
驱动程序使用内存大小范围
、
执行器数量上限;通过遍历驱动程序使用内存
、
遍历执行器
、
遍历执行器内存大小
、
遍历每个执行器使用的核数
、
遍历基准数据编码集合得到运行参数集合;根据运行参数集合逐个调用待处理实现类,实现类根据数据编码枚举,获取对应组件的连接方式,从对应组件中获取数据,操作后将输出处理结果数据到大数据仓库输出表中,调用日志输出工具类并将操作日志输出至大数据的数据仓库中;程序输出,输出基准程序执行日志结果表,所述基准程序执行日志结果表的表字段包括:程序运行资源字段影响因素
、
数据集合信息字段影响因素
、
操作类型和处理时间
。3.
根据权利要求2所述的一种大数据批处理任务运行时间的预测方法,其特征在于:步骤
S11、S3
中,所述输入操作包括:读数据库表
、
读文件系统和读中间件,所述行处理操作为对数据记录的行进行处理的操作,所述列处理操作为对数据记录的列进行处理的操作,所述输出操作为数据写操作,所述输出操作包括:写数据库表
、
写文件系统和写中间件;所述批处理任务按所...
【专利技术属性】
技术研发人员:林飞,何涛,刘振山,张鹏,易永波,古元,毛华阳,华仲峰,
申请(专利权)人:北京亚鸿世纪科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。