大规模数据聚类分析的并行化制造技术

技术编号：8161552 阅读：183 留言：0更新日期：2013-01-07 19:33

本发明专利技术提供大规模数据聚类分析的并行化处理的方法和系统。聚类选择器可以确定多个样本聚类，以及可以在多个处理核中的每一个处再现所述多个样本聚类。样本划分器可以将存储在数据库中的具有关联属性的多个样本划分为数目相应于所述多个处理核的数目的样本子集，并且可以将所述数目的样本子集中的每一个与所述多个处理核中的对应一个关联。整合操作器可以基于所述多个处理核中的每个对应核处的每个样本子集的每个样本的关联属性，执行所述每个样本相对于在所述对应处理核处再现的多个样本聚类中的每一个的比较。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及并行处理。
技术介绍
并行处理通常指的是将ー个或多个计算任务划分为两个或更多子任务的概念，每个子任务可以在単独的处理器上运行。换句话说，把一个较大的计算任务分成若干子任务，然后将这些子任务分配到两个或多个处理器上执行。与仅使用所述处理器中的一个处理器可能达到的效果相比，通过使用这样的并行处理技术，在许多情况下，可以以更快速并且更有效的方式完成计算任务。然而，实际上，可能存在大量障碍使得难以或者无法执行给定计算任务的并行处理，特别是对于特定类型或者类别的计算任务。举例来说，一般地，要求至少与并行处理关联的计算开销要小。举例来说，对于一项将并行运行的给定计算任务来说，可能需要将与该计算任务相关的数据的部分或者全部复制到将使用的每ー个处理器中。更一般来说，可以理解，最好没有为并行处理而进行的数据分割或复制而带来的计算开销。而且，在并行运行的处理器中的任意ー个处的延迟或困难可能导致该任务的计算整体上的延迟。而且，因为子任务在两个或更多处理器处完成，所以可能需要计算资源来整合在两个或更多处理器中的每ー个处执行的并行处理的結果，以便得到该计算任务整体的统ー计算結...

【技术保护点】
一种包括记录在计算机可读介质上的指令的计算机系统，该系统包括：聚类选择器，其被配置为确定多个样本聚类，以及在多个处理核中的每一个处再现所述多个样本聚类；样本划分器，其被配置为将存储在数据库中的具有关联属性的多个样本划分为数目对应于所述多个处理核的数目的样本子集，并且还被配置为将所述数目的样本子集中的每一个与所述多个处理核中的对应一个相关联；以及整合操作器，其被配置为基于所述多个处理核中的每个对应核处的每个样本子集中的每个样本的关联属性，执行所述每个样本相对于在所述对应处理核处再现的多个样本聚类中的每一个的比较。

【技术特征摘要】

【专利技术属性】
技术研发人员：黎文宪，孙谷飞，
申请(专利权)人：SAP股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人