使用映射和归并的数据聚集制造技术

技术编号:15391590 阅读:40 留言:0更新日期:2017-05-19 04:50
本发明专利技术涉及使用映射和归并的数据聚集的方法,其为数据点的集合生成数据集群。定义了包含数据点的关注区域以及该关注区域的中心矩阵,其中该中心矩阵包括定义重叠圆的中心的中心点的阵列。基于相近的中心点将数据点映射至相应的圆。基于位于重叠圆的对的重叠区域中的数据点与相应的圆内的数据点总数相比的相对数量归并重叠圆的对。基于归并的重叠圆的对识别属于一个或多个数据集群的圆,并且基于相应的圆识别属于一个或多个数据集群的数据点。可以由具有使用并行处理器的异构架构的计算机执行该方法。

Aggregation of data using mappings and merges

The present invention relates to a method of data aggregation using mapping and merging, which generates data clusters for collections of data points. A region of interest that contains the data points and a central matrix of the concern region are included, wherein the central matrix includes an array defining the central point of the center of the overlap circle. The data points are mapped to corresponding circles based on similar central points. A relative number of overlapping pairs of data points based on the total number of data points in a pair of overlapping regions in an overlapped circle. Based on the identification of the overlapping circles of the merging, a circle belonging to one or more data clusters, and identifying data points belonging to one or more data clusters based on the corresponding circle. The method may be performed by a computer having a heterogeneous architecture using parallel processors.

【技术实现步骤摘要】
使用映射和归并的数据聚集
本专利技术涉及计算机实现的数据处理,并且更具体地涉及用于这种应用的数据聚集技术。
技术介绍
在大数据时代,诸如数据挖掘的数据处理应用同时有益于商业活动以及人类的日常生活.聚集,即基于一个或多个数据特性或属性将一组数据组织在多个子集中(也称为数据集群),在诸多数据挖掘应用中扮演着重要角色.一般来说,数据集合越大,计算量越大并且实现数据聚集算法中涉及的传输带宽也越大。已知在具有并行操作的不同类型的多个处理器(诸如中央处理单元(CPU)和多个图形处理单元(GPU))的异构平台上实现传统的数据聚集算法(诸如K-平均数数据聚集算法),以试图在合理时长和合理开销的情况下执行数据聚集.不幸的是,对于大的数据集合,执行这种解决方案的时间仍然过长.因此,提出更为有效的数据聚集的方法将是有益的.附图说明根据下文的详细说明、所附的权利要求以及附图,本专利技术的实施例将更完整地显现出来,在附图中,相同的附图标记标识相似或相同的要素.图1是对应于要被聚集的数据集合的二维图像的图形化表示;图2是根据本专利技术的一个实施例的数据聚集算法的流程图;图3是用于图1中表示的数据集合的示例中心矩阵的图形化表示;图4是对应于覆盖在图1的图像上的图3的中心矩阵的覆盖图像的图形化表示;图5是对于图4的示例覆盖图像通过执行图2的圆归并步骤生成的关系图的图形化表示;图6是通过在图5的关系图上执行图2的图遍历步骤生成的树状图的图形化表示;图7是适于实现图2的数据聚集算法的异构计算机系统的高等级示意框图;以及图8是在图7的异构计算机系统上以同时、多任务的方式实现图2的数据聚集算法的中心映射步骤的图7的多GPU核心的软件框架的图形化表示.具体实施方式此处公开了本专利技术的详细说明性实施例.然而,本文公开的特定结构性和功能性细节仅仅是代表性的,其目的在于描述本专利技术的示例实施例.本专利技术可以以多种可供选择的形式实现,并且不应被理解为仅受限于这里提出的实施例.进一步的,这里使用的术语目的仅在于描述具体实施例,并不是意图限制本专利技术的示例实施例.如这里所使用的,单数形式的“一个”、“一种”和“该”意图在于也包括复数形式,除非上下文明确另有指示.将进一步理解,术语“包括”、“包含”指示规定的特征、步骤或组件的存在,但并不排除一个或多个其它特征、步骤或组件的存在.还应当注意,在一些可供选择的实施方式中,记载的功能/行为可以以不同于附图中记载的顺序出现。举例来说,连续示出的两个附图实际上可大体上同时执行或者在某些情况下可以以相反的顺序执行,这取决于所涉及的功能/行为。在一个实施例中,本专利技术提供了一种针对数据点的集合生成一个或多个数据集群的计算机实现的方法.计算机定义了包括该数据点的关注区域.计算机定义了关注区域的中心矩阵,其中中心矩阵包括定义了重叠圆的中心的中心点的阵列.计算机基于相近的中心点将数据点映射至相应的圆并基于所映射的数据点确定是否归并相邻对的重叠圆.计算机基于归并的重叠圆的对识别属于一个或多个数据集群的圆并基于识别的圆识别属于一个或多个数据集群的数据点.现在参见图1,示出了对应于要聚集的数据集合的二维图像100的图形化表示.在此图形化表示中,该集合中的每个数据都被表示为二维空间内的黑点,其中每个数据具有(i)映射至笛卡尔坐标系的X方向中的坐标的第一特性以及(ii)映射至笛卡尔坐标系的Y方向中的坐标的第二特性。在一些数据处理应用中(诸如在光学字符识别(OCR)和其它图像处理应用中),实际上数据为二维图像100的点,并且图1的图形化表示直接表示那幅图像.在其它数据处理应用中,数据集合与二维图像无关,并且图1的图像100仅为那个集合中的数据的图形化表示.本领域技术人员还将理解,在其它数据处理应用中,要聚集的数据具有多于两种不同类型的特性或者甚至仅具有一种类型的特性.图1的二维数据集合仅是用于解释本专利技术的数据聚集算法的方便和可理解的方式.本领域技术人员将理解如何将那个数据聚集算法用于具有非二维特性的数据集.数据聚集的目标在于符合逻辑地将输入数据的集合组织在多个数据子集(即,数据集群)中以用于后续的数据处理.通过观察明显的是,对应于图1的图像100的示例数据集合应当被聚集为三个数据集群102、104和106.一种数据聚集算法被设计用于使得计算机能够获得那个相同的结果.图2是根据本专利技术的一个实施例的数据聚集算法200的流程图.该数据聚集算法200被应用于输入数据的集合以识别一个或多个数据集群,其中每个数据集群是输入数据集合的子集。数据聚集算法200中的第一步骤202是为输入数据集合定义关注区域(ROI).在数据聚集算法的一些实施方式中,ROI定义步骤202定义了等边的ROI,然而一般来说,ROI并不必须为等边形.下文的描述是指其中ROI为等边形的实施方式.本领域技术人员将理解如何实现为非等边ROI的本专利技术.对于诸如对应于图1的二维图像100的那个二维数据集合,初始ROI被定义为包括所有输入数据点的最小的矩形空间.基于该数据集合的X和Y坐标值的范围确定初始ROI。举例来说,假设数据集合中的最小X值为-47,并且数据集合中的最大X值为104.进一步假设数据集合中的最小Y值为13,并且数据集合中的最大Y值为156.在那种情况下,初始ROI是由线X=-47、X=104、Y=13以及Y=156作为边界的矩形空间。这个初始ROI为(104-(-47))或者151单位宽(即,在X维中)以及(156-13)或143单位高(即,在Y维中).在这种实施方式中,由于步骤202定义了等边形或正方形(在二维数据集合的情况中)ROI,正方形ROI可以通过将初始ROI的高度增大8个单位(通过将初始ROI的上界扩展8个单位或通过将初始ROI的下界扩展8个单位或通过将上界和下界总共扩展8个单位)进行定义。这样扩张的空间将是宽和高都为151单位的正方形ROI。这样的正方形ROI将表示具有能包含集合中所有要被聚集的输入数据点的最小尺寸的等边空间,并且那个扩张的空间会是用于图2的数据聚集算法200的合适的正方形ROI.注意,如果初始ROI正好是等边形,那么初始ROI已经是适于用作数据聚集算法200的这个实施方式的正方形ROI.数据聚集算法200中的第二步骤204是标准化输入数据。继续使用相同的示例输入数据集合,X坐标值范围从-47到104,并且Y坐标值范围从13到156.在那种情况中,假设通过最多仅扩展上界和右界定义ROI,对于输入数据集合在笛卡尔坐标系中正方形ROI的左下角位于点(X,Y)=(-47,13).在数据标准化步骤204中,该集合中的数据点在X维度移位+47单位并在Y方向移位-13单位,以使得对于标准化的数据集合,标准化的ROI的左下角位于的笛卡尔坐标系的原点(0,0).除了线性移位数据坐标外,数据标准化还可包括将数据坐标缩放为在每个维度的范围都为0至1.这种缩放使得接下来的处理更加一般化.这种缩放还将基于整数的坐标转变为浮点坐标,它可使得处理更为准确.注意,对于非等边ROI,基于ROI的最长维度的长度缩放数据坐标.一般来说,在已经标准化数据点后,标准化的数据点的坐标值将是相对于关注区域内的点,例如左下角.本领域技术人员将理解,关注区域内的任何点都可被选为标准化的笛卡尔坐本文档来自技高网...
使用映射和归并的数据聚集

【技术保护点】
一种计算机实现的方法,用于针对数据点的集合生成一个或多个数据集群,所述方法包括:(a)计算机定义包含所述数据点的关注区域;(b)计算机为所述关注区域定义中心矩阵,其中所述中心矩阵包括定义重叠圆的中心的中心点的阵列;(c)计算机基于相近的中心点将数据点映射至相应的圆;(d)计算机基于所映射的数据点确定是否归并相邻对的重叠圆;(e)计算机基于重叠圆的所归并的对识别属于所述一个或多个数据集群的圆;(f)计算机基于所识别的圆识别属于所述一个或多个数据集群的数据点.

【技术特征摘要】
1.一种计算机实现的方法,用于针对数据点的集合生成一个或多个数据集群,所述方法包括:(a)计算机定义包含所述数据点的关注区域;(b)计算机为所述关注区域定义中心矩阵,其中所述中心矩阵包括定义重叠圆的中心的中心点的阵列;(c)计算机基于相近的中心点将数据点映射至相应的圆;(d)计算机基于所映射的数据点确定是否归并相邻对的重叠圆;(e)计算机基于重叠圆的所归并的对识别属于所述一个或多个数据集群的圆;(f)计算机基于所识别的圆识别属于所述一个或多个数据集群的数据点.2.如权利要求1所述的方法,其中步骤(a)包括:(a1)识别数据点的最小和最大坐标值以识别包含所述数据点的初始关注区域;以及(a2)如果初始关注区域不是等边形,则增大初始关注区域在一个或多个维度中的尺寸以定义包括所述数据点的等边的关注区域.3.如权利要求1所述的方法,其中步骤(a)包括标准化所述数据点的坐标值为相对于所述关注区域内的点.4.如权利要求1所述的方法,其中:所述中心矩阵的中心点在所述关注区域内被规律地间隔开;以及所述圆具有相同长度的半径,以使得每个数据点均位于单个圆内或者两个或多个圆间的重叠区域内.5.如权利要求1所述的方法,其中步骤(c)包括:(c1)计算从每个数据点至每个中心点的距离;以及(c2)如果数据点和中心点之间的距离被确定为小于或等于对应于所述中心点的圆的半径,那么确定所述数据点位于所述圆内;否则,确定所述数据点并不位于所述圆内。6.如权利要求1所述的方法,其中基于位于相邻对的重叠圆的重叠区域中的数据点与位于相应的圆内的数据点总数相比较的相对数量,所述计算机确定是否归并相邻对的重叠圆.7.如权利要求6所述的方法,其中步骤(d)包括,对于共享重叠区域的两个重叠圆:(d1)生成将重叠区域中的数据点的数量与每个相应的重叠圆中的数据点的总数相关的重叠度量值;以及(d2)基于...

【专利技术属性】
技术研发人员:肖雄陈真勇李先忠
申请(专利权)人:飞思卡尔半导体公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1