一种大数据系统性能建模与仿真方法技术方案

技术编号:36427186 阅读:30 留言:0更新日期:2023-01-20 22:37
本发明专利技术公开了一种大数据系统性能建模与仿真方法,涉及性能建模和系统仿真等领域。本发明专利技术所涉及的主要步骤包括:大数据作业日志采集与分析、软件行为模型和硬件资源响应模型仿真模型库的构建、待预测性能大数据作业行为分析、大数据作业仿真文件的生成和执行、输出大数据作业性能预测结果。本发明专利技术所提出的大数据作业性能预测方法,可以使用户在无需运行真实大数据作业的情况下预测计算多种大数据作业在指定集群配置上的运行性能,便于企业和机构提前感知大数据作业的运行成本。提前感知大数据作业的运行成本。提前感知大数据作业的运行成本。

【技术实现步骤摘要】
一种大数据系统性能建模与仿真方法


[0001]本专利技术属大数据作业的
,具体涉及一种大数据系统性能建模与仿真方法。

技术介绍

[0002]在数字时代下,数据成为了各行各业生产活动重要的生产要素。在数字化建设日趋完善的背景下,大规模数据的获取愈加方便。大数据当中所隐含的规律往往具有较高参考价值,可以作为生产决策的重要依据。在大数据驱动发展的潮流下,大数据系统应运而生。为了以更高的性价比部署和优化大数据系统,企业机构往往需要评估大数据作业在大数据系统当中的性能。
[0003]计算机系统的性能建模研究,特别是基于排队论的计算机系统性能模型,已经在大数据系统性能建模中取得了应用。基于排队论的计算机系统性能模型将计算资源抽象为服务台,将使用计算资源的资源请求抽象为顾客。通过适当的转换,基于排队论的计算机性能模型可以得到合适的平均到达率、需求到达间隔分布和服务时间分布等排队模型指标,而后通过对应的排队论模型计算需求响应的时间期望和吞吐率等指标。然而,基于排队论排队模型的计算机性能模型大多数从统计层面给出计算机系统处理请求的响应期望,而较少给出单个资源请求的响应指标。
[0004]近年来,机器学习等人工智能技术的兴起从数据驱动模型的角度为大数据系统提供了新的思路。神经网络、支持向量回归、线性回归、随机森林和XGBoost等机器学习模型被广泛应用于大数据作业的性能回归任务中,并取得了良好的效果。然而,数据驱动的大数据性能模型与产生训练数据的集群和大数据作业高度绑定,在面对集群变化和作业变化时预测效果出现下滑。
[0005]总体而言,目前大部分大数据作业性能预测模型所采用的机理,如排队论和机器学习等,仍然停留在统计分析层面或与已有作业数据和运行大数据作业的集群深度绑定,泛化性能不足。

技术实现思路

[0006]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种大数据系统性能建模与仿真方法、系统、设备及存储介质,通过分析已有多个大数据作业在多个不同集群上的运行日志建立大数据作业画像,然后进一步建立大数据任务的负载预测模型和大数据集群中各类计算资源的资源响应模型。在预测新的大数据作业性能时,该方法根据用户给出的任务图和调度方式等行为模型和集群配置预测各大数据任务的负载施加情况,并通过仿真的方式实现负载对各类计算资源响应模型的调用,从而实现新大数据作业的性能预测。
[0007]为了达到上述目的,本专利技术采用以下技术方案:
[0008]本专利技术公开了一种大数据系统性能建模与仿真方法,包括以下步骤:
[0009]S1.大数据作业日志采集与分析:在多个大数据集群上运行多个已知大数据作业,
采集和分析大数据作业运行日志,形成包括作业运行配置和性能指标的大数据作业画像;
[0010]S2.仿真模型库构建:基于各大数据作业的画像,提取有影响力的配置参数和大数据作业运行中的大数据系统状态,构建多个大数据任务负载预测模型和不同计算资源的硬件资源响应模型,形成仿真模型库;
[0011]S3.大数据作业行为分析:用户对待预测性能的大数据作业进行分析,得到该大数据作业的任务关系和调度方式等软件行为以及运行该大数据作业的大数据集群配置,并将软件行为和集群配置输入系统;
[0012]S4.大数据作业仿真文件的生成与执行:结合待预测性能大数据作业的软件行和负载施加情况以及仿真模板和资源响应模型构成大数据作业仿真文件,编译和运行大数据作业仿真文件,得到待预测性能大数据作业的性能预测结果。
[0013]作为优选的技术方案,所述步骤S1具体为:
[0014]S1

1.搜集多个不同类别的测试基准和一般性大数据作业;
[0015]S1

2.在多个具有不同节点拓扑结构和具有不同硬件配置节点的异构大数据集群上部署计算资源使用情况采集脚本或采集工具;
[0016]S1

3.在步骤S1

2所述的多个大数据集群上启动步骤S1

2所部署的计算资源使用情况采集脚本或采集工具,然后依次启动步骤S1

1中搜集的所有大数据作业,且仅当上一个大数据作业运行完成后才能启动运行下一个大数据作业;
[0017]S1

4.收集步骤S1

3所运行的大数据作业在大数据系统中产生的日志以及步骤S1

3中启动的计算资源使用情况采集脚本或采集器所得到的作业执行过程中的计算资源使用情况,形成完整的大数据作业日志;
[0018]S1

5.分析大数据作业日志,提取大数据集群的配置参数组D;
[0019]S1

6.分析大数据作业日志,得到组成大数据作业的任务集合T;对于大数据作业m,若其由n个任务组成,则该大数据作业的任务集合表示为T
m
={R
m,1
,R
m,2
,

,R
m,n
},其中R
m,i
为大数据作业m的第i个任务;
[0020]S1

7.分析大数据作业日志,结合大数据集群配置参数组D得到每一个大数据任务所运行的节点物理配置参数集c
i,j
;对于每一个大数据任务R
i,j
,所需提取的节点物理配置参数集c
i,j
包括该任务所运行节点的计算单元的参数、内存的参数、磁盘的参数和网络的参数;
[0021]S1

8.分析大数据作业日志,提取每一个大数据任务运行时的大数据系统配置参数集s
i,j
;对于每一个大数据任务R
i,j
,所需提取的大数据系统配置参数集s
i,j
包括对应任务所运行节点的分布式文件系统配置参数、分布式计算框架配置参数、分布式调度框架配置参数、大数据系统运行环境配置参数;
[0022]S1

9.分析大数据作业日志,提取每一个大数据任务的工作性能指标集p
i,j
;对于每一个大数据任务R
i,j
,所需提取的大数据任务工作性能指标集p
i,j
包括任务的类型、任务的运行时间、任务运行过程中对文件系统的读写次数和读写大小、任务运行过程中的计算单元使用轨迹和内存使用轨迹;
[0023]S1

10.对于每一个大数据任务,组合其节点物理配置参数集、大数据系统配置参数集和大数据任务工作性能指标集,形成大数据任务画像;对于大数据任务R
i,j
,其画像r
i,j
=(c
i,j
,s
i,j
,p
i,j
);
[0024]S1

11.分析大数据作业日志,提取大数据作业的整体画像;对于大数据作业T
i<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据系统性能建模与仿真方法,其特征在于,包括以下步骤:S1.大数据作业日志采集与分析:在多个大数据集群上运行多个已知大数据作业,采集和分析大数据作业运行日志,形成包括作业运行配置和性能指标的大数据作业画像;S2.仿真模型库构建:基于各大数据作业的画像,提取有影响力的配置参数和大数据作业运行中的大数据系统状态,构建多个大数据任务负载预测模型和不同计算资源的硬件资源响应模型,形成仿真模型库;S3.大数据作业行为分析:用户对待预测性能的大数据作业进行分析,得到该大数据作业的任务关系和调度方式等软件行为以及运行该大数据作业的大数据集群配置,并将软件行为和集群配置输入系统;S4.大数据作业仿真文件的生成与执行:结合待预测性能大数据作业的软件行和负载施加情况以及仿真模板和资源响应模型构成大数据作业仿真文件,编译和运行大数据作业仿真文件,得到待预测性能大数据作业的性能预测结果。2.根据权利要求1所述的一种大数据系统性能建模与仿真方法,其特征在于,所述步骤S1具体为:S1

1.搜集多个不同类别的测试基准和一般性大数据作业;S1

2.在多个具有不同节点拓扑结构和具有不同硬件配置节点的异构大数据集群上部署计算资源使用情况采集脚本或采集工具;S1

3.在步骤S1

2所述的多个大数据集群上启动步骤S1

2所部署的计算资源使用情况采集脚本或采集工具,然后依次启动步骤S1

1中搜集的所有大数据作业,且仅当上一个大数据作业运行完成后才能启动运行下一个大数据作业;S1

4.收集步骤S1

3所运行的大数据作业在大数据系统中产生的日志以及步骤S1

3中启动的计算资源使用情况采集脚本或采集器所得到的作业执行过程中的计算资源使用情况,形成完整的大数据作业日志;S1

5.分析大数据作业日志,提取大数据集群的配置参数组D;S1

6.分析大数据作业日志,得到组成大数据作业的任务集合T;对于大数据作业m,若其由n个任务组成,则该大数据作业的任务集合表示为T
m
={R
m,1
,R
m,2
,...,R
m,n
},其中R
m,i
为大数据作业m的第i个任务;S1

7.分析大数据作业日志,结合大数据集群配置参数组D得到每一个大数据任务所运行的节点物理配置参数集c
i,j
;对于每一个大数据任务R
i,j
,所需提取的节点物理配置参数集c
i,j
包括该任务所运行节点的计算单元的参数、内存的参数、磁盘的参数和网络的参数;S1

8.分析大数据作业日志,提取每一个大数据任务运行时的大数据系统配置参数集s
i,j
;对于每一个大数据任务R
i,j
,所需提取的大数据系统配置参数集s
i,j
包括对应任务所运行节点的分布式文件系统配置参数、分布式计算框架配置参数、分布式调度框架配置参数、大数据系统运行环境配置参数;S1

9.分析大数据作业日志,提取每一个大数据任务的工作性能指标集p
i,j
;对于每一个大数据任务R
i,j
,所需提取的大数据任务工作性能指标集P
i,j
包括任务的类型、任务的运行时间、任务运行过程中对文件系统的读写次数和读写大小、任务运行过程中的计算单元使用轨迹和内存使用轨迹;S1

10.对于每一个大数据任务,组合其节点物理配置参数集、大数据系统配置参数集
和大数据任务工作性能指标集,形成大数据任务画像;对于大数据任务R
i,j
,其画像r
i,j
=(c
i,j
,s
i,j
,P
i,j
);S1

11.分析大数据作业日志,提取大数据作业的整体画像;对于大数据作业T
i
,其整体画像z
i
包括该作业的类型、作业的业务配置参数集、该作业所包含的任务类型和不同类型任务的数量分布、作业的调度方法、作业等待启动时间和作业整体运行时间;S1

12.组合大数据作业的整体画像以及该大数据作业当中所包含大数据任务的画像,形成大数据作业画像;对于大数据作业T
i
,其画像t
i
=(z
i
,{r
i,1
,r
i,2
,...,r
i,n
}),生成的大数据作业画像将被存入大数据作业画像库。3.根据权利要求1所述的一种大数据系统性能建模与仿真方法,其特征在于,所述步骤S1

5中,所述大数据集群的配置参数组D包括集群的拓扑结构、集群各链路的状态以及集群中各节点的集群物理配置信息;所述集群中各节点的集群物理配置信息包括计算单元、内存、磁盘和网络的配置信息;所述计算单元包括CPU、GPU和FPGA。4.根据权利要求1所述的一种大数据系统性能建模与仿真方法,其特征在于,所述步骤S2中,负载预测模型构建过程具体包括以下步骤:S2
‑1‑
1.从大数据作业画像库所存储的大数据作业画像中提取不同作业类型下不同类型任务的所有资源需求;所述资源需求是计算单元的使用时间、内存的使用大小、磁盘的读写大小、网络发送的起止地和传输数据量四种需求中的任意一种;S2
‑1‑
2.对于每一个资源需求a,从大数据作业画像库所存储的大数据作业画像中提取该资源需求所属大数据任务的大数据系统配置参数集s
i,j
和节点物理配置参数集c
i,j
以及所属大数据作业的业务配置参数集并转换为大数据任务的业务配置参数集v
i,j
,形成负载需求;提取完成后的负载需求表示为四元组(a,s
a
,c
a
,v
a
),将类型为τ的大数据作业下所属的类型为θ的大数据任务的所有负载类型为γ的负载需求组成集合,形成对应类型下的负载数据集A
τ,θ,γ
;S2
‑1‑
3.对于每一个负载数据集A
τ,θ,γ
实施降维;S2
‑1‑
4.用负载数据集A
τ,θ,γ
构建负载预测模型,以A
τ,θ,γ
中每条记录(a,u)中的u为输入、a为输出,使用机器学习模型建立负载预测模型Γ
τ,θ,γ
,并存入系统负载预测模型库。5.根据权利要求4所述的一种大数据系统性能建模与仿真方法,其特征在于,所述步骤S2
‑1‑
3中,降维过程以负载需求中的资源需求a中的数据量为输出,负载需求中的大数据系统配置参数集s
a
中的所有参数、节点物理配置参数c
a
和业务配置参数集v
a
中的所有参数为输入,使用降维算法计算不同配置参数对资源需求的影响因子,并保留具有较高影响因子的配置参数;经过降维后负载数据集A
τ,θ,...

【专利技术属性】
技术研发人员:林伟伟许皓钧胡正阳
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1