当前位置: 首页 > 专利查询>SAP股份公司专利>正文

大规模数据聚类分析的并行化制造技术

技术编号:8161552 阅读:157 留言:0更新日期:2013-01-07 19:33
本发明专利技术提供大规模数据聚类分析的并行化处理的方法和系统。聚类选择器可以确定多个样本聚类,以及可以在多个处理核中的每一个处再现所述多个样本聚类。样本划分器可以将存储在数据库中的具有关联属性的多个样本划分为数目相应于所述多个处理核的数目的样本子集,并且可以将所述数目的样本子集中的每一个与所述多个处理核中的对应一个关联。整合操作器可以基于所述多个处理核中的每个对应核处的每个样本子集的每个样本的关联属性,执行所述每个样本相对于在所述对应处理核处再现的多个样本聚类中的每一个的比较。

【技术实现步骤摘要】

本说明书涉及并行处理。
技术介绍
并行处理通常指的是将ー个或多个计算任务划分为两个或更多子任务的概念,每个子任务可以在単独的处理器上运行。换句话说,把一个较大的计算任务分成若干子任务,然后将这些子任务分配到两个或多个处理器上执行。与仅使用所述处理器中的一个处理器可能达到的效果相比,通过使用这样的并行处理技术,在许多情况下,可以以更快速并且更有效的方式完成计算任务。然而,实际上,可能存在大量障碍使得难以或者无法执行给定计算任务的并行处理,特别是对于特定类型或者类别的计算任务。举例来说,一般地,要求至少与并行处理关联的计算开销要小。举例来说,对于一项将并行运行的给定计算任务来说,可能需要将与该计算任务相关的数据的部分或者全部复制到将使用的每ー个处理器中。更一般来说,可以理解,最好没有为并行处理而进行的数据分割或复制而带来的计算开销。而且,在并行运行的处理器中的任意ー个处的延迟或困难可能导致该任务的计算整体上的延迟。而且,因为子任务在两个或更多处理器处完成,所以可能需要计算资源来整合在两个或更多处理器中的每ー个处执行的并行处理的結果,以便得到该计算任务整体的统ー计算結果。因此,由于可能与在并行处理中处理子任务的划分、计算以及整合相关联的这些计算开销,在许多情况下利用并行处理技术可能是不现实的。举例来说,特定类型的计算任务可能需要对相对来说非常大的数据集的每一元素与相对较小的数据集的每一元素的比较或者其它操作。例如,在一个为了说明的特定例子中,可能出现需要将ー个包括三百万个记录——每ー个记录有300个属性——的数据集与第二数据集的100个记录中的每ー个相比较(诸如,举例来说,当希望将三百万个记录中 的每ー个分组到被认定是最相似的100个聚类中的一个中时)。因此,这样的计算将需要三百万乘300再乘100次単独计算。而且,将数据集划分以使用単独的处理器处理是不可行的,因为该计算的本质是将第一较大数据集的全部记录和属性与第二较小数据集的个个元素都进行比较。因此,从在这些以及其它类型的计算场景(context)中使用并行处理技术得到显著的益处可能是不可能的或者是行不通的。
技术实现思路
根据ー个一般方面,计算机系统可以包括记录在计算机可读介质上的指令。该系统可以包括聚类选择器,其被配置为确定多个样本聚类,以及在多个处理核中的每ー个处再现所述多个样本聚类。该系统可以包括样本划分器,其被配置为将存储在数据库中的具有关联属性的多个样本划分为数目相应于所述多个处理核的数目的样本子集,并且还被配置为将所述数目的样本子集中的每ー个与所述多个处理核中的对应ー个关联。该系统可以包括整合操作器,其被配置为基于所述多个处理核中的每个对应核处的每个样本子集中的每个样本的关联属性,执行所述每个样本相对于在所述对应处理核处再现的多个样本聚类中的每ー个的比较。实施方式可以包括一个或多个下列特征。例如,所述聚类选择器可以被配置为通过图形用户界面(GUI)从用户接收的多个样本聚类的数目。所述系统可以包括合并器,其被配置为合并所述在多个处理核中的每ー个处执行的比较的比较结果,以便由此以所述多个样本填充所述样本聚类。样本子集的数目可以等于所述多个处理核的数目,并且每个样本子集可以包括相等数目的样本。所述系统可以包括属性划分器,其被配置为将与每个样本关联的属性划分为属性子集,以供在执行所述比较期间对其进行并行处理。所述比较可以包括在多个处理核中的每ー个处执行的、在每个样本子集的每个样本与每个聚类的中心之间的相似性比较。可以使用包括在每个聚类中的样本的平均属性值来确定每个聚类的中心。所述整合操作器可以被配置为基于所述比较将样本从第一聚类重新指派到第二聚类。合并器可以被配置为合并所述比较的比较結果,以及可以被配置为根 据需要使用经合并的比较结果来更新每个聚类的每个中心的值。所述合并器可以被配置为基于被重新指派的样本的数目来确定每个聚类内样本的稳定性。根据另ー个一般方面,一种计算机实现方法可以包括确定存储在数据库中的具有关联属性的多个样本;确定多个样本聚类;在多个处理核中的每ー个处再现所述多个样本聚类。该方法可以包括将所述多个样本划分为数目与所述多个处理核的数目对应的样本子集;将所述数目的样本子集中的每ー个与所述多个处理核中的对应ー个关联;以及基于在所述多个处理核的每个对应核处的每个样本子集的每个样本的关联属性,执行所述每个样本相对于在对应处理核处再现的多个样本聚类中的每ー个的比较。实施方式可以包括一个或多个下列特征。例如,可以合并所述在多个处理核中的每ー个处执行的比较的比较结果,以便由此以所述多个样本填充所述样本聚类。而且,执行所述比较可以包括将与每个样本关联的属性划分为属性子集,以便在执行所述比较期间对其进行并行处理。执行所述比较还可以包括在多个处理核中的每ー个处执行每个样本子集中的每个样本与每个聚类的中心之间的相似性比较。根据另ー个一般方面,一种计算机程序产品可以被有形地具体实施在计算机可读介质上并且可以包括指令,当被运行时所述指令可以被配置为如下确定存储在数据库中的具有关联属性的多个样本;确定多个样本聚类;以及在多个处理核中的每ー个处再现所述多个样本聚类。所述指令当被运行时还可以被配置为将所述多个样本划分为数目与所述多个处理核的数目对应的样本子集;将所述数目的样本子集中的每ー个与所述多个处理核中的对应ー个关联;以及基于在所述多个处理核的每个对应核处的每个样本子集的每个样本的关联属性,执行所述每个样本相对于在对应处理核处再现的多个样本聚类中的每ー个的比较。实施方式可以包括一个或多个下列特征。例如,所述指令当被运行时可以被配置为合并所述在多个处理核中的每ー个处执行的比较的比较結果,以便由此以所述多个样本填充所述样本聚类。所述指令当被运行时可以被配置为将与每个样本关联的属性划分为属性子集,以便在执行所述比较期间对其进行并行处理。所述比较可以包括在多个处理核中的每ー个处执行的、每个样本子集中的每个样本与每个聚类的中心之间的相似性比较。所述指令当被运行时可以被配置为基于所述比较将样本从第一聚类重新指派到第二聚类。所述指令当被运行时可以被配置为基于所述被重新指派的样本的数目确定每个聚类内的样本的稳定性。在附图以及下面的说明中阐述了一个或多个实施例的细节。其他特征将从说明书和附图以及从权利要求中变得明显。附图说明图I是用于对大規模数据聚类分析执行并行处理的系统的框图。 图2是示出图I的系统的操作的更为详细的例子的框图。图3是示出图I和图2的系统的示范性操作的流程图。图4是示出在k均值聚类算法的场景中使用图I-图3的系统和操作的流程图。图5A和图5B是示出与图I-图4关联的处理技术的计算本质的框图。具体实施例方式图I是在聚类分析期间执行并行处理大数据集的系统100的框图。在图I的例子中,如图所示,聚类管理器102可以被配置为分隔相对较大数据集内的多个样本104以定义多个聚类(cluster) 106,以及用样本104中适合的样本来填充聚类106中的每ー个。而且,如这里所述,聚类管理器102可以被配置为以利用并行处理技术的方式生成聚类106以及用样本104中适合的样本来填充聚类106,该并行处理技术被设计为充分利用多个处理核的计算能力,所述多个处理核如图I中本文档来自技高网
...

【技术保护点】
一种包括记录在计算机可读介质上的指令的计算机系统,该系统包括:聚类选择器,其被配置为确定多个样本聚类,以及在多个处理核中的每一个处再现所述多个样本聚类;样本划分器,其被配置为将存储在数据库中的具有关联属性的多个样本划分为数目对应于所述多个处理核的数目的样本子集,并且还被配置为将所述数目的样本子集中的每一个与所述多个处理核中的对应一个相关联;以及整合操作器,其被配置为基于所述多个处理核中的每个对应核处的每个样本子集中的每个样本的关联属性,执行所述每个样本相对于在所述对应处理核处再现的多个样本聚类中的每一个的比较。

【技术特征摘要】

【专利技术属性】
技术研发人员:黎文宪孙谷飞
申请(专利权)人:SAP股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1