用于周期现象的聚类技术制造技术

技术编号:2845921 阅读:170 留言:0更新日期:2012-04-11 18:40
一种数据处理系统处理集体描述在一个物理过程中的几个实体中的至少一个变量的周期行为的数据组。每个周期包括几个时隙。输入例程(2-4)接收多个数据组,每个数据组包含多个数据项,每个数据项描述在一个时隙中的实体的变量。幅度确定例程(2-6)为几个实体的每一个确定诸如平均值、量值或峰值这样的具体幅度参数。定标例程(2-8)定标实体间的数据组,使具体幅度参数受到抑制并只保持其形状。训练例程(2-10)用第一多个定标的数据组训练聚类系统,以确定一组聚类中心。训练后,聚类例程(2-12)将第二多个定标的数据组施加到受训练的聚类系统。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种用于周期现象的聚类技术。例如,本专利技术可用于处理集体描述在一个物理过程中的几个实体的一个或多个变量的周期行为的数据组。
技术介绍
聚类技术,诸如K-均值算法、分层聚类技术、自组织映射等,已广泛用于分析物理过程的变量行为。为了提供一个具体的但非限制性的示例,该物理过程可以是一个蜂窝电信网络的运作过程,其中几个实体中的每一个可以是该网络的小区或一些其它资源,而一个或多个的变量可以是性能指示符,例如业务量、资源使用,丢失的连接数目(或百分数)等。现有的聚类技术存在着忽略了大量有用信息的缺点。
技术实现思路
本专利技术的目的是为了提供一种方法和实施该方法的装置,用以克服上述缺点。本专利技术的目的是通过具有独立权利要求中描述的技术特征的方法和设备来实现的。本专利技术的优选实施例公开在从属权利要求中。本专利技术是基于这样一个发现现有聚类技术将变量视为绝对量。在电信网络的环境下,这是可理解的,因为例如网络是受诸如业务信道数目这样的物理资源制约的,不能超过该数目。于是自然要考虑物理资源是否被超过的反常的情况。但正是这种将变量视作绝对值的观测使得大量有用的信息被浪费掉了。因此,本专利技术部分地基于如下的构思小实体的周期行为可以类似于如果绝对值受抑制的大实体的周期行为。上述构思可以由用于处理集体描述在一个物理过程中的几个实体中的至少一个变量的周期行为的数据组的方法来实现。该方法包括下列步骤1.确定在周期行为中的第一周期,并将该第一周期分成多个时隙;2.确定多个数据组,每个数据组包含多个数据项,使得每个数据项描述在一个时隙中的实体的变量;3.为几个实体的每一个实体确定具体幅度参数;4.定标实体间的数据组,使得具体幅度参数得以抑制;5.用第一多个所定标的数据组训练聚类系统以确定一组聚类中心;以及6.使用该受训练的聚类系统来聚类第二多个所定标的数据组。为了更好地理解上述步骤,我们仍将以蜂窝电信网络为例进行说明。但读者要记住,这只是非限制性的示例和只用以阐明本专利技术的各要素之间的关系。在步骤1中,如果物理过程是一个电信网络,则第一周期通常是24小时时段以及时隙通常为小时。24小时时段是由网络用户的生活节奏确定的,但1小时的时隙只是方便的选择而已,因为人类习惯于用小时计时。但就计算机而言,任何大小的时隙都是可行的,而且时隙也并非要求长度相等。例如,在平静时段期间(通常是夜晚)时隙可以比高活动时段期间较长。术语“第一周期”意味着可以有进一步的周期,诸如具有一天一个的七个时隙的一周的周期。术语“周期”应该以如通常在统计上的实际世界现象的环境下那样宽的意义上去理解。性能指示符是周期性的事实并不意味着在任何两个周期之间性能一样。该性能指示符总体上表明有一个周期地重复的模式给定多个周期的每个周期的任何两个大取样时段,在这些时段上的性能趋于相似。然而,会出现差别,以及许多聚类系统的目的是确定是否这些差别代表了系统故障、欺诈的用户行为或其它异常。在步骤2中,每个数据项描述在一个时隙中的实体的变量。例如,每个数据项可以描述具体时隙期间在蜂窝电信网络中的小区的性能指示符。通常,性能指示符在该时隙上被求和或被平均。数据组是在该周期上的数据项的集合。例如,如果时隙为一小时时段,则数据组可以是集体覆盖24小时时段的一组(例如一个阵列)24个取样值。如果将数据组想象为一条曲线,则它有确定形状和幅度(大小)。在步骤3中,为每个实体确定具体幅度参数。在步骤4中,在实体间定标数据组,使得具体幅度参数受到抑制。幅度参数是可用来抑制绝对量而使之只保持形式的任何数学量。定标操作使大的和小的实体彼此相互兼容。换句话说,由聚类来自实体的数据所获得的信息可用于聚类来自另一个实体的数据,而不管实体的大小如何。(在这种情况下,“大小”是指诸如业务量这样的其性能指示符的幅度,而不是其地理尺度)在步骤5中,用第一多个定标的数据组训练聚类系统以确定一组聚类中心。除了数据组的定标是如关于步骤3和4中所描述的那样以外,训练步骤可以完全是常规的。虽然下面要描述一些优选的聚类技术,但为常规的聚类系统意味着本专利技术并不需要任何具体的聚类系统或不依赖于任何具体的系统。在步骤6中,在步骤5中受训练的聚类系统用于聚类第二多个定标的数据组。再一次,从纯粹数学的观点看,使用受训练的聚类系统的步骤完全可以是常规的,但正如下面要描述的,本专利技术的用定标的数据组抑制实体间的幅度的构思打开了通向新颖应用之路。本专利技术的优点是因为诸如性能指示符这样的变量不受限于给定大小的实体,所以可从物理过程获得更多有用的信息。通过在聚类前执行定标操作,使本专利技术的技术与常规的聚类技术相兼容。本专利技术可用于几种应用。例如,利用本专利技术的方法所聚类的和所定标的数据组可用于检测反常情况。在另一个应用中,定标的数据组用于确定定价策略。在再一个应用中,定标的数据组被用于确定网络资源的最佳运行参数,该参数然后被复制到另一个网络资源。另外,本专利技术的技术可用于检测其特征数据(profile)紧密匹配于某些样板客户但其业务的使用不同于该样板客户的订户。该信息可用于将该所检测客户作为业务广告的目标。根据本专利技术的优选实施例,对使用第一周期所聚类的数据组通过使用第二周期进行再聚类,该第二周期为多个第一周期。例如,具有第一周期的数据组可以代表网元或网络资源的日常行为,而用第二周期再聚类的数据组代表在几年内的日常行为的进展。根据本专利技术的另一个优选实施例,该聚类系统是无监的聚类系统。使用无监聚类系统的好处是无需聚类中心的先验知识便可发现聚类中心。然而,如果有关于聚类中心的先验的信息,通常称之为“种子值”,则用该种子值初始化该无监聚类系统是有益的。可以以新颖的方式使用通过本专利技术的处理获得的信息。在详细描述这些应用领域以前,让我们引入一些有助于使下面的描述更为精炼的术语。聚类系统将处理数据组并产生一组聚类中心。可以方便地将术语“原型”用于描述聚类中心的数据组。一个具有其各自指示符的原型的集合称为码本。使用码本带来若干好处。例如,我们可从码本选择最佳匹配的原型并只存储该最佳匹配的原型的指示符,而用不着归档某个时隙期间实体的行为,作为完整的数据片段(例如每天24个独立样本),这样显然节省了大量的存储空间。因此,本专利技术在归档数据方面是有用的。一个数据组与码本中的原型精确相同的情况即使发生也是罕见的。这就是为何定义置信区间使得可以检测从最佳匹配原型的大偏差是有益的原因。在一个数据组偏离最佳匹配原型大到越出置信区间的情况下,则归档整个数据组而不仅仅归档原型指示符是有益的。一个更好的选择是归档最佳匹配原型指示符和性能指示符超出置信区间的时隙以及归档在这些时隙中的实际(或定标的)数据值。下面要讨论用于确定置信区间的优选技术。除了在数据归档中提供优越性以外,码本概念对数据分析也是有用的。例如,确定是否两个实体行为为相似或几乎相似的方式远非易事,特别是如果两个实体间的性能指示符的幅度不同时。如果相似性的检测是基于码本的原型指示符的分析,则检测实体间的相似行为是相对便捷的任务。在某些实施例中,本专利技术可用于从可观测的变量的历史来恢复丢失的值,诸如在网络资源中的数量。如果我们只知道过去的该变量的日、周或月平均值,则可以通过外插当前的小时行为来得到该变量的每小时行为的合理估计。当前的每小时的行本文档来自技高网...

【技术保护点】
一种用于处理数据组的方法,该数据组集体描述在一个物理过程中的几个实体(102)中的至少一个变量的周期行为;该方法包括:确定(2-2)在该周期行为中的第一周期并且将该第一周期分成多个时隙;确定(2-4)多个数据组,每个 数据组包含多个数据项,使得每个数据项描述在一个时隙中的实体的变量;为该几个实体中的每一个确定(2-6)具体幅度参数(82);定标(2-8)实体间的该数据组,使得该具体幅度参数得以抑制;用第一多个所定标的数据组训练(2 -10)聚类系统以确定一组聚类中心(31-34;72、83);以及使用(2-12)所训练的聚类系统聚类第二多个所定标的数据组。

【技术特征摘要】
【国外来华专利技术】US 2003-12-31 10/748,6731.一种用于处理数据组的方法,该数据组集体描述在一个物理过程中的几个实体(102)中的至少一个变量的周期行为;该方法包括确定(2-2)在该周期行为中的第一周期并且将该第一周期分成多个时隙;确定(2-4)多个数据组,每个数据组包含多个数据项,使得每个数据项描述在一个时隙中的实体的变量;为该几个实体中的每一个确定(2-6)具体幅度参数(82);定标(2-8)实体间的该数据组,使得该具体幅度参数得以抑制;用第一多个所定标的数据组训练(2-10)聚类系统以确定一组聚类中心(31-34;72、83);以及使用(2-12)所训练的聚类系统聚类第二多个所定标的数据组。2.根据权利要求1的方法,其中为每个第一周期单独确定该具体幅度参数。3.根据权利要求1的方法,还包括确定作为若干该第一周期的第二周期以及就该第二周期再聚类该所聚类的数据组。4.根据权利要求1的方法,还包括处理单独地来自该聚类系统的该受抑制的具体幅度参数。5.根据权利要求1的方法,其中该聚类系统是无监聚类系统。6.根据权利要求5的方法,还包括在所述训练前用先验种子值初始化该无监聚类系统。7.根据权利要求1的方法,还包括将预定的置信区间(73、93)与该聚类中心相关联;对该第二多个所聚类的数据组的每一个确定(6-8)最佳匹配聚类中心并且检查(6-10)该所聚类的数据组是否在该最佳匹配聚类中心的所述预定的置信区间内;如果是,则归档(6-12)该最佳匹配聚类中心(83)的指示符并且丢弃所讨论的该数据组;或如果否,则对于其中该所聚类的数据组不在所述预定的置信区间内的那些时隙,归档(6-14)该数据组的数据项(85)。8.根据权利要求7的方法,其中该置信区间(93)随所描述的该变量的幅度参数的增加而逐渐变窄。9.根据权利要求1的方法,还包括使用该所聚类的第二多个所定标的数据组来检测异常情况。10.根据权利要求1的方法,还包括使用该所...

【专利技术属性】
技术研发人员:基莫阿托南珀克卡屈姆皮莱南珀克科韦维莱南
申请(专利权)人:诺基亚西门子网络公司
类型:发明
国别省市:FI[芬兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利