当前位置: 首页 > 专利查询>SAP股份公司专利>正文

结构化数据的聚类制造技术

技术编号:2833528 阅读:181 留言:0更新日期:2012-04-11 18:40
提出了一种使用气泡聚类算法的处理数据系统和方法。在所述系统和方法中,数据集合被格式化,以用于处理。包含格式化后的数据的业务对象的集合被分组成较小的气泡的集合,每个气泡包括仅提供关于其中的业务对象的统计信息的容器。然后,基于最近邻相似性聚类所述气泡,并且生成聚类后的气泡的可视化。

【技术实现步骤摘要】
结构化数据的聚类
本公开内容一般涉及用于处理数据集合的基于计算机的机制,更具体地 说,涉及用于准确执行对大数据集合的处理的技术。
技术介绍
许多信息处理应用涉及对大量对象的统计分级(ranking)或分类 (classification)。这些对象通过以关系表(relational table)组织的大量结构 化数据来表示,关系表包括属性,属性具有值, 一般为数值。属性值描述对 象。对象的统计分级或分类基于这些属性的值来执行。如此理解的对象是业务应用(business application)所特有的,在业务应 用中,诸如产品或销售定单的对象具有诸如价格或日期的具有数值的属性, 并且描述这些对象的数据一般存储在关系数据库中。出于分类或分级的目的, 处理这些对象的应用可能经常需要对对象进行聚类(cluster)。对于大量的对 象来说,使用有效的聚类算法以节约执行这些算法所需的计算资源在实际中 是非常重要的。
技术实现思路
一般来说,本文讨论用于聚类结构化数据的系统和方法,以便提供对大 量数据集合的搜索的高质量结果。本文中公开的方法是业务对象,但是,也 可以容易地适配为针对满足上面介绍的一般特性的其它对象来工作。为简明 起见,但不失一般性,本公开内容从业务对象的角度来描述所述方法和算法。在所述系统和方法的具体实施例中,采用了一种算法,该算法预先假定 了基于特定领域知识并针对业务对象定义的相似性模型(similarity model)。 相似性模型根据上迷属性值定义相似性,所述属性值一般为数值或可简化为 数值。 一个不是数值但可简化为数值的属性的例子是位置或地址,两个位置 之间的距离可以表示为数值。所述算法使用压缩结构,所述压缩结构使得能够利用比本领域中已知的其它方法更少的计算量提供结果,因此比典型实现方式中的哪些其它方法更 快。由所述算法生成的聚类结果可以用图形表示,以便利对它们的评估,这 对于将结果显示给业务用户的业务应用来说是显著的益处。在一方面, 一种用于处理数据的计算机实现的方法包括将包含所述数据的业务对象的集合分组成较小的气泡的集合,每个气泡包括仅提供关于其 中的业务对象的统计信息的容器。在一些方面,该方法还包括基于最近邻相 似性聚类所述气泡,以及生成聚类后的气泡的可视化。在另一方面,一种计算机实现的方法包括格式化用于处理的数据的集合, 和将包含格式化后的数据的业务对象的集合分组成较小的气泡的集合,每个 气泡包括仅才是供关于其中的业务对象的统计信息的容器。在再一方面,提供一种实施在有形媒介上的计算机程序产品。所述计算机程序产品被配置成导致数据处理装置执行操作,包括格式化用于处理的 数据的集合;将包含格式化后的数据的业务对象的集合分组成较小的气泡的 集合,每个气泡包括仅提供关于其中的业务对象的统计信息的容器;基于最 近邻相似性聚类所述气泡;以及生成聚类后的气泡的可视化。一个或多个实施例的细节在下面的附图和说明中阐述。通过所迷说明、 附图以及权利要求书,其它特征和优点将变得明显。附图说明这些和其它方方面将参照下述附图来具体描述。图1是聚类算法的流程图。图2是数据压缩算法的流程图。图3是被分组成较小的聚类气泡(bubble)的集合的业务对象集合的图 形表示。图4是聚类算法的流程图。图5是业务对象的集合的图形表示以及描绘了业务对象的气泡之间的相 似性簇(cluster)的图。不同的附图中相似的参考标记指示相似的元素。具体实施方式本文描述了一种系统和方法,用于聚类结构化数据,以提供对大数据集合的高质量结果。为简明起见,但不失一般性,本公开内容从业务对象的角 度来描述示例算法,但这里公开的系统和方法也可容易地适配为针对其它对 象来工作。作为最初的要求,基于特定领域知识针对业务对象的集合定义相似性模 型。相似性模型根据属性值定义相似性,所述属性值一般为数值或可简化为 数值。 一个不是数值但可简化为数值的属性的例子是位置或地址,两个位置 之间的距离可以表示为数值。这里公开的系统和方法使用了压缩结构,该压缩结构采用 一种其能够利 用最少的计算量来提供聚类结果的聚类算法。通过压缩结构产生的聚类结构 可以用图形表示,并最终在业务应用中显示给业务用户,以便利他们的评估。图l是聚类算法的流程图,包括下述步骤在IOO,准备数据,在200, 将准备的数据压缩成气泡(bubble),在300,对气泡聚类,以及在400,可 视化聚类的气泡。现在将更具体地描述和定义这些步骤中的每一个及其中的 每一个术语。数据准备100:聚集(gather)和foilliat数据。除去任何不需要的属性。 使用关于剩余属性的领域知识来设计相似性模型。该相似性模型为所使用的 每个属性定义局部相似性量度和权重。局部相似性的加权和定义全局相似性 量度。数据压缩200:业务对象的大集合被分组成较小的气泡的集合。每个气 泡是一个容器,该容器仅显示关于其包含的对象的统计信息。气泡的使用加 速了计算,图2是可以在数据压缩200的实施例中执行的气泡算法的流程图。 在202,为每个气泡随机选择代表性的业务对象。在204,计算每对气泡的代 表之间的全局对象相似性。在206,将每个业务对象分配给最相似的气泡, 并更新气泡统计。在208,使用代表和气泡统计来计算每对气泡之间的全局 气泡相似性。图3示出了将业务对象的集合222聚类和压缩成较小数量的气泡,其中 每个气泡包括气泡代表226 (为每个气泡随机选择的业务对象)和相关的类 似业务对象,图3还示出了每一对气泡代表226与其气泡中的每个业务对象 之间的全局对象相似性以及每对气泡之间的全局气泡相似性的图形表示。聚类气泡300:该聚类基于k最近邻(k-nearest-neighbor)相似性。彼此 具有高度相似性的气泡被分配到相同的聚类。该聚类算法如图4所示那样工 作。在302,对尚未被处理的所有气泡进行迭代(itemted)。在304,将当前 气泡和相似性0输入到控制列表中。当该控制列表非空时,在306选取第一 个气泡及其相似性,将其添加到控制列表。在308,如果可以对气泡设置k相似性(k-similarity)(大于或等于阈值) 圓(circle),以使该气泡包括k个其它气泡,则指定核心气泡。对于核心气 泡中的k个气泡中的每一个,相似性被设置为k相似性。在310,将k相似 性圓中的气泡按照由相似性确定的顺序(最相似第一)添加到控制列表中。 在312,按照相似性顺序,将阈值圆中的其它气泡以及它们的计算出的相似 性添加到控制列表中。如果来自步骤306的气泡具有在阈值之上少于k个的 邻居,则在314,将其从控制列表中去除,并且所述方法继续针对控制列表 中的下一个气泡。在316,将任何剩余的异常的(outlier)气泡(相似性仍为 0)添加到控制列表中。可视化400:聚类算法的输出是基于控制列表的发展的结果列表。气泡 可被可视化为如图5所示的图,其中,图的高度表示相似性。直观地,图的 峰表示在图5中图左边绘出的数据集合中的簇。分等级嵌套的簇由阶梯状的 峰表示。本说明书中所描述本专利技术的实施例和所有功能操作可以被实施在数字电 子电路中,或者实施在计算机软件、固件、硬件,包括本说明书中公开的结 构及其结构等价物,或它们的组合中本文档来自技高网...

【技术保护点】
一种处理数据的方法,包括:    将包含所述数据的业务对象的集合分组成较小的气泡的集合,每个气泡包括仅提供关于其中的业务对象的统计信息的容器;    基于最近邻相似性聚类所述气泡;以及    生成聚类后的气泡的可视化。

【技术特征摘要】
US 2006-8-16 11/505,7641、一种处理数据的方法,包括将包含所述数据的业务对象的集合分组成较小的气泡的集合,每个气泡包括仅提供关于其中的业务对象的统计信息的容器;基于最近邻相似性聚类所述气泡;以及生成聚类后的气泡的可视化。2、 如权利要求l所述的方法,还包括格式化所述数据。3、 如权利要求2所述的方法,其中,格式化所述数据包括从所述数据去 除任何不需要的属性。4、 如权利要求l所述的方法,还包括基于关于所述数据的属性的子集定 义相似性模型。5、 如权利要求4所述的方法,其中,所述相似性模型包括用于每个所使 用属性的局部相似性量度和权重,以及基于所述局部相似性量度的加权和的 全局相似性量度。6、 如权利要求l所述的方法,其中,分组所述业务对象的集合还包括 为每个气泡随机选择代表性的业务对象;计算较小的气泡的集合中代表性的业务对象对之间的全局相似性;以及 才艮据对每个对象与所有气泡之间的局部相似性以及所述全局相似性的比 较,将所述业务对象的集合中的每个其它业务对象指派给最相似的气泡。7、 如权利要求l所述的方法,其中,聚类所述气泡包括将与另一个气泡 具有高相似性的气泡指派给相同的簇。8、 如权利要求l所述的方法,其中,聚类所述气泡还包括 对尚未被处理的所有气泡进行迭代;将当前气泡和相似性0存储到控制列表中;选择下一个气泡以及其与所述当前气泡的相似性;以及将所述下一个气泡及其相似性添加到所述控制列表中。9、 如权利要求8所迷的方法,还包括设置围绕核心气泡的阈值界限,在所迷阈值界限内,所述核心气泡具有 至少预定义数目的其它气泡;将所述阈值界限内的气泡按照它们与所述核心气泡的相似性添加到所述 控制列表中。10、 如权利要求9所述的方法,还包括目的其它气泡的任何气泡;以及将剩余的异常气泡添加到所述控制列表中以生成结果列表。11、 一种计算机实现的方法,包括 格式化用于处理的数据的集合;将包含格式化后的数据的业务对象的集合分组成较小的气泡的集合,每 个气泡包括仅提供关...

【专利技术属性】
技术研发人员:托比亚斯尼坎普
申请(专利权)人:SAP股份公司
类型:发明
国别省市:DE[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1