The present invention relates to a method of data aggregation using mapping and merging, which generates data clusters for collections of data points. A region of interest that contains the data points and a central matrix of the concern region are included, wherein the central matrix includes an array defining the central point of the center of the overlap circle. The data points are mapped to corresponding circles based on similar central points. A relative number of overlapping pairs of data points based on the total number of data points in a pair of overlapping regions in an overlapped circle. Based on the identification of the overlapping circles of the merging, a circle belonging to one or more data clusters, and identifying data points belonging to one or more data clusters based on the corresponding circle. The method may be performed by a computer having a heterogeneous architecture using parallel processors.
【技术实现步骤摘要】
使用映射和归并的数据聚集
本专利技术涉及计算机实现的数据处理,并且更具体地涉及用于这种应用的数据聚集技术。
技术介绍
在大数据时代,诸如数据挖掘的数据处理应用同时有益于商业活动以及人类的日常生活.聚集,即基于一个或多个数据特性或属性将一组数据组织在多个子集中(也称为数据集群),在诸多数据挖掘应用中扮演着重要角色.一般来说,数据集合越大,计算量越大并且实现数据聚集算法中涉及的传输带宽也越大。已知在具有并行操作的不同类型的多个处理器(诸如中央处理单元(CPU)和多个图形处理单元(GPU))的异构平台上实现传统的数据聚集算法(诸如K-平均数数据聚集算法),以试图在合理时长和合理开销的情况下执行数据聚集.不幸的是,对于大的数据集合,执行这种解决方案的时间仍然过长.因此,提出更为有效的数据聚集的方法将是有益的.附图说明根据下文的详细说明、所附的权利要求以及附图,本专利技术的实施例将更完整地显现出来,在附图中,相同的附图标记标识相似或相同的要素.图1是对应于要被聚集的数据集合的二维图像的图形化表示;图2是根据本专利技术的一个实施例的数据聚集算法的流程图;图3是用于图1中表示的数据集合的示例中心矩阵的图形化表示;图4是对应于覆盖在图1的图像上的图3的中心矩阵的覆盖图像的图形化表示;图5是对于图4的示例覆盖图像通过执行图2的圆归并步骤生成的关系图的图形化表示;图6是通过在图5的关系图上执行图2的图遍历步骤生成的树状图的图形化表示;图7是适于实现图2的数据聚集算法的异构计算机系统的高等级示意框图;以及图8是在图7的异构计算机系统上以同时、多任务的方式实现图2的数据聚集算法的 ...
【技术保护点】
一种计算机实现的方法,用于针对数据点的集合生成一个或多个数据集群,所述方法包括:(a)计算机定义包含所述数据点的关注区域;(b)计算机为所述关注区域定义中心矩阵,其中所述中心矩阵包括定义重叠圆的中心的中心点的阵列;(c)计算机基于相近的中心点将数据点映射至相应的圆;(d)计算机基于所映射的数据点确定是否归并相邻对的重叠圆;(e)计算机基于重叠圆的所归并的对识别属于所述一个或多个数据集群的圆;(f)计算机基于所识别的圆识别属于所述一个或多个数据集群的数据点.
【技术特征摘要】
1.一种计算机实现的方法,用于针对数据点的集合生成一个或多个数据集群,所述方法包括:(a)计算机定义包含所述数据点的关注区域;(b)计算机为所述关注区域定义中心矩阵,其中所述中心矩阵包括定义重叠圆的中心的中心点的阵列;(c)计算机基于相近的中心点将数据点映射至相应的圆;(d)计算机基于所映射的数据点确定是否归并相邻对的重叠圆;(e)计算机基于重叠圆的所归并的对识别属于所述一个或多个数据集群的圆;(f)计算机基于所识别的圆识别属于所述一个或多个数据集群的数据点.2.如权利要求1所述的方法,其中步骤(a)包括:(a1)识别数据点的最小和最大坐标值以识别包含所述数据点的初始关注区域;以及(a2)如果初始关注区域不是等边形,则增大初始关注区域在一个或多个维度中的尺寸以定义包括所述数据点的等边的关注区域.3.如权利要求1所述的方法,其中步骤(a)包括标准化所述数据点的坐标值为相对于所述关注区域内的点.4.如权利要求1所述的方法,其中:所述中心矩阵的中心点在所述关注区域内被规律地间隔开;以及所述圆具有相同长度的半径,以使得每个数据点均位于单个圆内或者两个或多个圆间的重叠区域内.5.如权利要求1所述的方法,其中步骤(c)包括:(c1)计算从每个数据点至每个中心点的距离;以及(c2)如果数据点和中心点之间的距离被确定为小于或等于对应于所述中心点的圆的半径,那么确定所述数据点位于所述圆内;否则,确定所述数据点并不位于所述圆内。6.如权利要求1所述的方法,其中基于位于相邻对的重叠圆的重叠区域中的数据点与位于相应的圆内的数据点总数相比较的相对数量,所述计算机确定是否归并相邻对的重叠圆.7.如权利要求6所述的方法,其中步骤(d)包括,对于共享重叠区域的两个重叠圆:(d1)生成将重叠区域中的数据点的数量与每个相应的重叠圆中的数据点的总数相关的重叠度量值;以及(d2)基于...
【专利技术属性】
技术研发人员:肖雄,陈真勇,李先忠,
申请(专利权)人:飞思卡尔半导体公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。