当前位置: 首页 > 专利查询>同济大学专利>正文

一种考虑数据、算法和体系结构结合的可扩展性度量方法技术

技术编号:24205563 阅读:45 留言:0更新日期:2020-05-20 14:30
本发明专利技术涉及一种考虑数据、算法和体系结构结合的可扩展性度量方法,包括以下步骤:步骤1:获得大数据任务在数据中心扩展前后参数信息;步骤2:获得数据中心扩展前后的计算规模测度,并获得扩展前后的计算规模测度之比;步骤3:获得数据中心扩展前后的计算开销测度,并获得扩展前后的计算开销测度之比;步骤4:获得可扩展性度量函数的数值;步骤5:判断数据中心的可扩展性。与现有技术相比,本发明专利技术具有考虑因素更全面、更具一般性等优点。

A scalability measurement method considering the combination of data, algorithm and architecture

【技术实现步骤摘要】
一种考虑数据、算法和体系结构结合的可扩展性度量方法
本专利技术涉及并行计算可扩展性度量方法领域,尤其是涉及一种考虑数据、算法和体系结构结合的可扩展性度量方法。
技术介绍
并行计算是实现高性能计算的重要手段,为求解超级挑战问题提供了机会。可扩展性是并行计算系统所追求的一个重要目标。所谓的可扩展性,指的是并行计算系统随着处理节点数目的增加,其性能也随之增强的能力。过去的几十年,国内外学者对可扩展性进行了广泛深入的研究,主要分为三个方面,包括体系结构、算法以及算法与体系结构的结合。大数据的产生,使得巨大的数据量不但要求数据中心能够“存储的下”和“计算得了”,而且要求数据中心的计算和存储能力能够随着数据量的增长而不断扩展。因此,分数度量数据中心的可扩展性必须要考虑数据因素,然而传统可扩展性的研究都只是关注在算法或体系结构方面,没有考虑数据因为,无法用来度量数据中心的可扩展性。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种考虑因素更加全面、更具有一般性的考虑数据、算法和体系结构结合的可扩展性度量方法。本专利技术的目的可以通过以下技术方案来实现:一种考虑数据、算法和体系结构结合的可扩展性度量方法,包括以下步骤:步骤1:获得大数据任务在数据中心扩展前后参数信息;步骤2:根据计算负载规模和数据规模获得数据中心扩展前后的计算规模测度,并获得扩展前后的计算规模测度之比;步骤3:根据数据存取时间和计算时间获得数据中心扩展前后的计算开销测度,并获得扩展前后的计算开销测度之比;步骤4:根据扩展前后的计算规模测度之比和计算开销测度之比获得可扩展性度量函数的数值;步骤5:根据可扩展性度量函数的数值判断数据中心的可扩展性。优选地,所述的数据中心在扩展前后的参数包括计算负载规模W和W'、数据规模D和D'、数据存取时间t和t'以及计算时间τ和τ'。更加优选地,所述的数据规模具体为大数据在存储设备上占用的存储空间;所述的计算负载规模具体为大数据任务算法中计算操作的数目。更加优选地,所述的扩展前的计算规模测度的计算方法为:扩展后的计算规模测度的计算方法为:更加优选地,所述的扩展前的计算开销测度的计算方法为:扩展后的计算开销测度的计算方法为:更加优选地,所述的等规模-开销测度之比的可扩展性度量函数具体为:更加优选地,所述的可扩展性度量函数的取值范围为(0,1]。优选地,所述的步骤5具体为:可扩展性函数越大,数据中心的可扩展性越好,当可扩展性函数等于1时,数据中心为严格意义上的可扩展。与现有技术相比,本专利技术具有以下优点:本专利技术中的数据中心可扩展性度量方法不仅考虑了算法和体系结构,还考虑了数据因素对可扩展性的影响,相较于传统的可扩展性度量方法,本专利技术中的方法考虑的因素更加全面,对可扩展性的度量更具有一般性,可以更加合理地指导大数据任务和数据中心的扩展。附图说明图1为本专利技术的流程示意图;图2为本专利技术中大数据任务在数据中心调度执行的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。本实施例涉及一种考虑数据、算法、体系结构结合的可扩展性度量方法,其流程示意图如图1所示,具体包括以下步骤:步骤1:获得大数据任务在数据中心扩展前后参数信息;步骤2:根据计算负载规模和数据规模获得数据中心扩展前后的计算规模测度,并获得扩展前后的计算规模测度之比;步骤3:根据数据存取时间和计算时间获得数据中心扩展前后的计算开销测度,并获得扩展前后的计算开销测度之比;步骤4:根据扩展前后的计算规模测度之比和计算开销测度之比获得可扩展性度量函数的数值;步骤5:根据可扩展性度量函数的数值判断数据中心的可扩展性。大数据任务在数据中心调度执行的示意图如图2所示,由于数据集的快速正常,大数据任务的负载不断增加,数据中心需要扩展以支持扩展的大数据任务正常执行。本实施例主要从以下三个关键部分对数据中心的可扩展性度量进行分析。1、大数据任务计算负载规模W与数据规模D的关系数据规模D指的是大数据在存储设备上占用的存储空间。大数据任务计算负载规模W指的是该任务算法中计算操作的数目。通常大数据任务的计算负载规模可以通过算法的时间复杂度反映。由于算法的时间复杂度与其输入数据集存在一定的关系,本实施例定义计算规模测度α,使用计算负载规模与数据规模的比值来反应计算负载规模相对数据规模的大小和变化,即α=W/D。对于不同时间复杂度的算法,其计算规模测度不同。例如,对于时间复杂度为线性的算法来说,由于计算负载规模随数据规模线性增长,那么计算规模测度实际上为常数。2、大数据任务在数据中心的存取时间τ和计算时间t对于处理数据集D的大数据任务A,其运行在数据中心时总的完成时间包括数据存取时间和计算时间两个部分。数据存取时间指的是存储节点存取数据集D需要花费的时间,计算时间指的是计算节点处理计算负载需要的时间。实际上,对于处理大规模数据集的大数据任务来说,其在数据中心运行时的计算开销与数据存取开销的比值,定义为计算开销测度β,β=t/τ,是确定数据中心性能的重要因素。计算开销反映计算负载在计算节点上的处理情况,数据存取开销反映存储节点对数据集的存取情况,那么深入分析大数据任务的计算开销和数据存取开销,就可以了解数据中心的可扩展性。3、等规模-开销测度之比的可扩展性度量函数ψ当需要扩展数据中心时,如果偏好扩展计算节点能力或存储节点能力,以达到缩短计算时间或存取时间的目的,即没有公平扩展计算节点和存储节点,那么随着数据集的增长,扩展的数据中心就会表现出计算能力很强而存取能力很弱或者相反的情况,致使数据中心走向计算能力和存取能力失衡的状态,因此本实施例希望数据中心扩展时公平对待计算节点和存储节点。所以,本实施例提出了一种数据集增长前后大数据任务的计算规模测度之比等于大数据任务的计算开销测度之比的数据中心可扩展性度量方法,定义扩展性度量函数为假设大数据任务A处理的数据集从D增长为D',数据中心从P扩展为P',β和β'分别表示数据集增长前后大数据任务的计算开销测度,α和α'分别表示数据集增长前后大数据任务的计算规模测度,那么可扩展性函数记为由于α反映大数据任务算法负载与数据集的关系,β反映大数据任务在数据中心执行时计算开销与数据存取开销的关系,因此扩展性函数ψ综合体现了数据、算法、体系结构三个方面。若扩展前后计算规模测度之比与计算开销测度之比相等,即ψ(D,D',A,A',P,P')=1,则认为数据中心达到严格意义上的可扩展即理想上的可本文档来自技高网...

【技术保护点】
1.一种考虑数据、算法和体系结构结合的可扩展性度量方法,其特征在于,包括以下步骤:/n步骤1:获得大数据任务在数据中心扩展前后参数信息;/n步骤2:根据计算负载规模和数据规模获得数据中心扩展前后的计算规模测度,并获得扩展前后的计算规模测度之比;/n步骤3:根据数据存取时间和计算时间获得数据中心扩展前后的计算开销测度,并获得扩展前后的计算开销测度之比;/n步骤4:根据扩展前后的计算规模测度之比和计算开销测度之比获得可扩展性度量函数的数值;/n步骤5:根据可扩展性度量函数的数值判断数据中心的可扩展性。/n

【技术特征摘要】
1.一种考虑数据、算法和体系结构结合的可扩展性度量方法,其特征在于,包括以下步骤:
步骤1:获得大数据任务在数据中心扩展前后参数信息;
步骤2:根据计算负载规模和数据规模获得数据中心扩展前后的计算规模测度,并获得扩展前后的计算规模测度之比;
步骤3:根据数据存取时间和计算时间获得数据中心扩展前后的计算开销测度,并获得扩展前后的计算开销测度之比;
步骤4:根据扩展前后的计算规模测度之比和计算开销测度之比获得可扩展性度量函数的数值;
步骤5:根据可扩展性度量函数的数值判断数据中心的可扩展性。


2.根据权利要求1所述的一种考虑数据、算法和体系结构结合的可扩展性度量方法,其特征在于,所述的数据中心在扩展前后的参数包括计算负载规模W和W'、数据规模D和D'、数据存取时间t和t'以及计算时间τ和τ'。


3.根据权利要求2所述的一种考虑数据、算法和体系结构结合的可扩展性度量方法,其特征在于,所述的数据规模具体为大数据在存储设备上占用的存储空间;所述的计算负载规模具体为大数据任务算法中计算操作的数目。


4.根据权利要求2所述...

【专利技术属性】
技术研发人员:曾国荪刘文娟丁春玲
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1