算力度量方法、装置及相关设备制造方法及图纸

技术编号:35774599 阅读:15 留言:0更新日期:2022-12-01 14:17
一种算力度量方法,适用于数据处理系统,包括:获取影响该数据处理系统运行的约束条件,该第一运行状态用于指示数据处理系统所包括的多个设备的运行状况,该多个设备包括计算设备、存储设备或网络设备中的至少一种;根据动态度量方式以及获取的第一运行状态,确定多个设备的XUE,该动态度量方式用于指示利用该约束条件确定多个设备的XUE的方式。由于根据数据处理系统的运行状态以及影响数据处理系统运行的约束条件,对数据处理系统的算力进行度量,这使得所确定的XUE能够体现数据处理系统在该约束条件的影响下所具有的真实性能,以此可以提高算力度量结果(如XUE)的实用价值。此可以提高算力度量结果(如XUE)的实用价值。此可以提高算力度量结果(如XUE)的实用价值。

【技术实现步骤摘要】
算力度量方法、装置及相关设备
[0001]本申请要求于2022年06月15日提交中国国家知识产权局、申请号为202210682182.X、申请名称为“一种数据中心算力自适应度量方法”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请涉及计算机
,尤其涉及一种算力度量方法、装置及相关设备。

技术介绍

[0003]随着数据中心从传统数据中心、绿色数据中心、算力数据中心到融合数据中心的演进,针对数据中心的算力度量指标也在发生变化。比如,针对传统数据中心,通常是利用每秒操作次数(operations per second,OPS)、每秒浮点运算次数(floating

point operations per second,FLOPS)衡量该静态硬件算力性能。针对绿色数据中心,通常是利用电源使用效率(Power Usage Effectiveness,PUE)来评价数据中心的能源利用效率,该PUE为数据中心的总能耗与该数据中心中真正用于互联网技术(internet technology,IT)设备的能耗之间的比值。
[0004]但是,实际应用场景中,由于数据中心(或者其它对象)中运行的应用程序的数量和负载不断变化,基于PUE方式对数据中心的算力度量结果往往无法真实反映数据中心的资源利用率,这就导致数据中心的资源利用评估结果准确性低。

技术实现思路

[0005]本申请提供了一种算力度量方法,以使得所确定出的算力度量结果更加全面的体现数据处理系统的真实性能,从而可以提高针对数据处理系统的算力度量的实用价值。此外,本申请还提供了对应的装置、计算设备、计算机可读存储介质以及计算机程序产品。
[0006]第一方面,本申请提供一种算力度量方法,该方法适用于数据处理系统,具体地,获取影响该数据处理系统运行的约束条件,如在能耗、负载、费用、安全等级等方面的约束条件,并获取该数据处理系统的第一运行状态,该第一运行状态用于指示数据处理系统所包括的多个设备的运行状况,该多个设备包括计算设备、存储设备或网络设备中的至少一种;然后,根据动态度量方式以及获取的第一运行状态,确定多个设备的XUE,该动态度量方式用于指示利用该约束条件确定多个设备的XUE的方式,例如可以是利用AI模型进行度量的方式,或者可以是利用公式算法进行度量的方式。
[0007]由于根据数据处理系统的运行状态以及影响数据处理系统运行的约束条件,对数据处理系统的算力进行度量,这使得所确定的XUE能够体现数据处理系统在该约束条件的影响下所具有的真实性能,以此可以提高算力度量结果(如XUE)的实用价值。
[0008]进一步地,当数据处理系统受到多种约束条件的限制时,算力度量装置基于该多种约束条件对数据处理系统的算力进行度量,可以摆脱单一维度的度量算力所具有的局限性和片面性,从而更加全面的反映数据处理系统的真实算力、提供算力度量结果的可靠性。
[0009]在一种可能的实施方式中,获取的第一运行状态为对数据处理系统中的多个设备执行自动化运维策略后的运行状态,则在获取数据处理系统的第一运行状态之前,还可以获取该数据处理系统的第二运行状态,并根据该第二运行状态以及约束条件,对数据处理系统中的多个设备执行自动化运维策略,该自动化运维策略用于指示对所述多个设备中至少一个设备所执行的操作,如调整设备的运行参数等;从而在度量数据处理系统的XUE值时,具体可以是当第一运行状态与第二运行状态满足度量条件时,根据动态度量方式以及该第一运行状态,确定多个设备的XUE。如此,可以在确定满足度量条件,也即确定数据处理系统的运行状态满足约束条件时,对数据处理系统的算力进行度量,并且,度量得到的XUE值能够体现数据处理系统在该约束条件下的真实算力。
[0010]在一种可能的实施方式中,在对多个设备执行自动化运维策略时,具体可以是利用AI模型,根据第二运行状态以及约束条件进行推理,得到该AI模型输出的自动化运维策略,从而对多个设备执行自动化运维策略。如此,可以利用AI模型实现对数据处理系统中的多个设备的自动化运维,从而使得数据处理系统在运行时能够满足约束条件。
[0011]在一种可能的实施方式中,在确定多个设备的XUE值时,具体可以是利用强化学习算法,根据第一运行状态以及第二运行状态计算所述AI模型是否收敛,并且,当AI模型收敛时,确定AI模型根据第一运行状态输出的多个设备的XUE。由于AI模型达到收敛时,表征数据处理系统在基于AI模型输出的自动化运维策略的调整下,其运行状态处于稳定状态并且满足约束条件,此时,针对数据处理系统的算力所得到的度量结果,即XUE,可以体现数据处理系统的真实算力。
[0012]在一种可能的实施方式中,强化学习算法包括Q学习算法。
[0013]在一种可能的实施方式中,AI模型通过深度强化学习算法、或自动强化学习算法进行构建。
[0014]在一种可能的实施方式中,约束条件包括数据处理系统的负载约束条件、费用约束条件、能耗约束条件、安全等级约束条件中的至少一种。如此,针对数据处理系统的算力的度量方法,可以适用于多种约束情况下的数据处理系统,以此可以提高算力度量场景的普适性。
[0015]在一种可能的实施方式中,在对多个设备执行自动化运维策略时,具体可以是根据自动化运维策略从动作空间中选择目标动作,所述动作空间包括运营设置类动作、负载调度类动作或运维管理类动作中的至少一种,从而可以根据该目标动作调整多个设备的运行参数。如此,可以实现将数据处理系统的自动化运维,并且,通过多次运维数据处理系统,可以使得数据处理系统的运行状态逐渐满足约束条件。
[0016]在一种可能的实施方式中,数据处理系统的运行状态包括计算状态、存储状态、网络状态中的一种或者多种。
[0017]在一种可能的实施方式中,在获取影响所述数据处理系统运行的约束条件时,具体可以是输出配置界面,并响应于用户在该配置界面上针对约束条件的配置操作,获得至少一种约束条件。如此,可以实现用户对于约束条件的自定义配置,提高用户度量数据处理系统算力的灵活性。
[0018]在一种可能的实施方式中,数据处理系统包括数据中心、或可用区、或分区。
[0019]在一种可能的实施方式中,数据处理系统用于实现大数据、AI、HPC中的至少一种
类型的任务。
[0020]第二方面,本申请实施例提供了一种算力度量方法,所述方法包括:获取多种约束条件,所述多种约束条件用于约束数据处理系统的运行,所述数据处理系统包括多个计算设备;采集所述数据处理系统的运行状态;当所述数据处理系统的运行状态满足所述多种约束条件,利用人工智能AI模型生成可扩展融合使用效率XUE,所述XUE是由人工智能AI模型根据所述多种约束条件以及所述数据处理系统的运行状态生成,所述XUE用于评估所述数据处理系统的性能。由于数据处理系统在实际应用场景中受到多种条件的约束,因此,在评价诸如数据中心等对象的性能时,利用数据处理系统的多种约束条件对其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种算力度量方法,其特征在于,所述方法适用于数据处理系统,包括:获取影响所述数据处理系统运行的约束条件;获取所述数据处理系统的第一运行状态,所述第一运行状态用于指示所述数据处理系统所包括的多个设备的运行状况,所述多个设备包括计算设备、存储设备或网络设备中的至少一种;根据动态度量方式以及所述第一运行状态,确定所述多个设备的可扩展融合资源利用率XUE,所述动态度量方式用于指示利用所述约束条件确定所述多个设备的所述XUE的方式。2.根据权利要求1所述的方法,其特征在于,所述第一运行状态为对所述多个设备执行自动化运维策略后的运行状态,所述方法还包括:在获取所述数据处理系统的第一运行状态之前,获取所述数据处理系统的第二运行状态;根据所述第二运行状态以及所述约束条件,对所述多个设备执行自动化运维策略,所述自动化运维策略用于指示对所述多个设备中至少一个设备所执行的操作;则,所述根据动态度量方式以及所述第一运行状态,确定所述多个设备的可扩展融合资源利用率XUE,包括:当所述第一运行状态与所述第二运行状态满足度量条件时,根据所述动态度量方式以及所述第一运行状态,确定所述多个设备的所述XUE。3.根据权利要求2所述的方法,其特征在于,所述根据所述第二运行状态以及所述约束条件,对所述多个设备执行自动化运维策略,包括:利用人工智能AI模型,根据所述第二运行状态以及所述约束条件进行推理,得到所述AI模型输出的所述自动化运维策略;对所述多个设备执行所述自动化运维策略。4.根据权利要求2或3所述的方法,其特征在于,所述当所述第一运行状态与所述第二运行状态满足度量条件时,根据所述动态度量方式以及所述第一运行状态,确定所述多个设备的所述XUE,包括:利用强化学习算法,根据所述第一运行状态以及所述第二运行状态计算所述AI模型是否收敛;当所述AI模型收敛时,确定所述AI模型根据所述第一运行状态输出的所述多个设备的所述XUE。5.根据权利要求4所述的方法,其特征在于,所述强化学习算法包括Q学习算法。6.根据权利要求3至5任一项所述的方法,其特征在于,所述AI模型通过深度强化学习算法、或自动强化学习算法进行构建。7.根据权利要求1至5任一项所述的方法,其特征在于,所述约束条件包括所述数据处理系统的负载约束条件、费用约束条件、能耗约束条件、安全等级约束条件中的至少一种。8.根据权利要求2至7任一项所述的方法,其特征在于,所述对所述多个...

【专利技术属性】
技术研发人员:王飞宋秉华崔金
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1