处理数据流的方法和设备技术

技术编号:2848471 阅读:183 留言:0更新日期:2012-04-11 18:40
公开了用于对流数据进行聚类和分类的技术。举例来说,一种用于处理数据流的技术包含以下步骤/操作。维护表示数据流中的一个或多个聚类的聚类结构。使用该聚类结构中的数据点为一个或者多个聚类中的每一个聚类确定一个投影维度集。使用与用于一个或者多个聚类中每一个聚类的每个投影维度集相关联的距离,确定数据流中的进入数据点到一个或者多个聚类的分配。此外,该聚类结构可以用于对数据流中的数据进行分类。

【技术实现步骤摘要】

本专利技术总体涉及数据处理技术,并且尤其涉及用于聚类(clustering)和分类诸如高维数据流之类的数据流的技术。
技术介绍
因为可以非常容易地收集流数据,所以用于处理数据流的技术近些年来已经变得重要了。也就是说,硬件技术的进步已经使日常生活中自动地记录与事务和活动相关联的数据变得容易。仅仅举例来说,可以在零售应用、多媒体应用、远程通信应用等的环境中收集这样的数据。此外,已知这样的数据经常具有与之相关联的非常高的维数(dimensionality)。仅仅举例来说,内在地具有高维数的数据集可以包括人口统计数据集,其中维度包含诸如姓名、年龄、薪水、以及许多其它用于表征个人的特征之类的信息。这样的数据流在许多实际领域(例如,如上面通过举例提及的零售、多媒体、远程通信)中的普遍存在已经导致进行了许多研究,尤其是在流数据的聚类(clustering)和分类的领域更是如此。对于数据流领域来说,聚类问题是尤其让人感兴趣的,这是因为它可以应用于数据概括和离群值(outlier)检测。在下述文献中公开了这种研究的示例1998年的ACM SIGMOD会议上、由R.Agrawal等人所著的“Automatic Subspace Clustering of High Dimensional Data for DataMining Applications”;1999年的ACM SIGMOD会议h、由C.C.Aggarwal等人所著的“Fast Algorithms for Projected Clustering”;2003年的VLDB会议上、由C.C.Aggarwal等人所著的“A Frameworkfor Clustering Evolving Data Streams”;以及2004的VLDB会议上、由C.C.Aggarwal等人所著的“A Framework for High DimensionalProjected Clustering of Data Streams”,这些公开通过引用包括在此。
技术实现思路
本专利技术提供了用于聚类和分类流数据的技术。虽然不局限于此,但是这样的技术尤其适合于呈现高维数的流数据。举例来说,在本专利技术的一个方面,一种用于处理数据流的技术包含以下步骤/操作。维护表示数据流中的一个或多个聚类的聚类结构。使用在聚类结构中的数据点,为一个或者多个聚类中的每一个聚类确定一个投影维度(projected dimension)集。使用与用于一个或者多个聚类中的每一个聚类的每个投影维度集相关联的距离,为数据流的进入(incoming)数据点确定到一个或者多个聚类的分配。在本专利技术的另一个方面中,聚类结构可以用于对数据流中的数据进行分类。根据对以下要结合附图阅读的本专利技术的说明性实施例的详细说明,本专利技术的这些及其他目的、特征和优点将变得明显。附图说明图1说明了依据本专利技术的一个实施例的服务器结构,依据该结构可以采用数据流处理;图2说明了依据本专利技术的一个实施例、用于对高维数据流进行聚类的方法;图3说明了依据本专利技术的实施例、用于在不同的聚类上确定投影(projection)的方法;图4说明了依据本专利技术的实施例、用于为聚类查找界限的方法;以及图5说明了依据本专利技术的实施例、用于执行高维数据流分类的方法。具体实施例方式以下的描述将使用一个示例性的数据处理系统体系结构来说明本专利技术。然而,应该理解,本专利技术不局限于和任何特定的系统体系结构一起使用。作为替代,本专利技术一般来说可应用于其中期望执行数据流聚类和分类的任何数据处理系统。虽然本专利技术不局限于此,但是本专利技术尤其适用于高维流数据集。仅仅举例而言,当有10个或更多维度时,可以认为流的维数是“高”的。然而,没有规定认为流数据呈现“高”维数的严格的维数阈值。尽管如此,本专利技术的技术不局限于任何特定量的维数阈值。此外,此处使用的短语“数据流”可以泛指在给定时间段上的连续数据序列。举例来说,可以由使用连续数据存储的实时处理生成这样的数据序列。例如,甚至诸如使用信用卡之类的、每天生活中的简单交易也会导致在信用卡公司的数据库处的自动存储。对于大公司来说,这可以导致上百万的数据事务-高容量数据流的典型示例。如将在下面详细说明的那样,本专利技术提供了用于在高维数据流上构造聚类的技术。这样的技术采用迭代处理,其用于在维度子空间中聚类数据对象。可以进一步采用该方法来对高维流数据进行分类。为了执行分类,在一个说明性实施例中,本专利技术的技术通过使用交替投影并且在这些投影上进行聚类来构造聚类。因此,本专利技术提供了用于高维数的投影数据流的聚类和分类的技术。将聚类问题说明性地定义为以下内容对于给定的数据点(此处也称为“点”)集,希望把这些点划分成为一个或多个相似的对象组,其中由距离函数定义相似性的概念。在数据流领域中,聚类问题需要这样的处理,其可以连续地确定数据中的支配(dominant)聚类,而不受流的先前历史记录所支配。即使在传统的静态数据集领域中,高维数情况也向聚类算法给出了一个特别的难题。这是因为在高维数情况中数据的稀疏性(sparsity)而造成的。在高维空间中,所有的点对都趋向于彼此是几乎等间距的。因此,以有意义的方法定义基于距离的聚类经常是不切实际的。已知存在可以为维度的特定子集确定聚类的用于投影聚类的技术,可参见例如1999年的ACM SIGMOD会议上、由C.C.Aggarwal等人所著的“Fast Algorithms for Projected Clustering”(其公开通过引用包括在此)。在这些方法中,这样定义聚类以便每个聚类对于特定的一组维度是特定的。这在某种程度上减轻了高维空间中的稀疏性问题。即使由于数据的稀疏性而导致未必可以在全部维度上有意义地定义聚类,但是也可以找到维度的某些子集,在其上的点的特定子集形成高质量和有意义的聚类。当然,这些维度的子集可以在不同的聚类上发生改变。这样的聚类称为投影聚类。投影聚类的概念形式上定义如下。假定k是要查找的聚类数目。聚类算法将把其中报告了每个聚类的子空间的维数l当做输入。该算法的输出包含所述聚类中的点集,以及聚类特定的维度集。在数据流的环境中,查找投影聚类的问题变得更加是个难题。这是因为为每个聚类查找相关维度集的附加问题使得该问题在数据流环境中显著增加了更多计算强度。虽然已经在数据流环境中研究了聚类问题,但是这些方法是用于全维数聚类的情况。本专利技术依据投影聚类解决了对高维数据流进行聚类的显著更难的问题。如将要说明性阐述的那样,本专利技术提供了用于高维投影流聚类的技术,所述聚类包括在流的发展过程期间连续改进投影维度和数据点的集合。以这样的方式执行与每个聚类相关联的维度集的更新,以便可以随着时间的推移有效地衍变与每个聚类相关联的点和维度(应当理解,维度是点的一个分量,例如人口统计数据库对于每个个人具有一个点,其中的一个维度是他的年龄)。为了实现这个目标,使用了在这些聚类内部的点的统计数据的压缩(condensed)表示。以这样的方式选择这些压缩表示,以便可以在快速数据流中有效地更新它们。同时,存储足够量的统计数据,以便可以快速地计算有关在给定投影中的聚类的重要量度。此外,本专利技术解决了高维数据流分类的问题。应当注意到,由于有大量可以在分类处理中使用本文档来自技高网
...

【技术保护点】
一种处理数据流的方法,包含步骤:维护一个聚类结构,该聚类结构表示数据流中的一个或多个聚类;使用该聚类结构中的数据点为一个或者多个聚类中的每一个聚类确定一个投影维度集;以及使用与用于一个或者多个聚类中每一个聚类的每个投 影维度集相关联的距离,确定数据流中的进入数据点到一个或者多个聚类的分配。

【技术特征摘要】
US 2005-4-20 11/110,0791.一种处理数据流的方法,包含步骤维护一个聚类结构,该聚类结构表示数据流中的一个或多个聚类;使用该聚类结构中的数据点为一个或者多个聚类中的每一个聚类确定一个投影维度集;以及使用与用于一个或者多个聚类中每一个聚类的每个投影维度集相关联的距离,确定数据流中的进入数据点到一个或者多个聚类的分配。2.如权利要求1所述的方法,其中,分配确定步骤还包含当进入数据点在一个或者多个聚类中的最接近聚类的边界之内时,将该进入数据点分配给最接近的聚类。3.如权利要求2所述的方法,其中,分配步骤还包含使用聚类的半径确定聚类的边界。4.如权利要求1所述的方法,其中,分配确定步骤还包含当进入数据点在最接近聚类的边界之外时,将该进入数据点分配给一个新创建的聚类。5.如权利要求1所述的方法,其中,分配确定步骤还包含使用相应的投影维度集将进入数据点分配给最接近的聚类。6.如权利要求1所述的方法,其中分配确定步骤还包含使用每个聚类的相应维度集确定进入数据点到每个聚类的距离。7.如权利要求1所述的方法,其中维度集确定步骤还包含使用沿着各个维度的变化来确定投影维度集。8.如权利要求7所述的方法,其中维度集确定步骤还包含选择具有最小变化的投影维度集。9.如权利要求1所述的方法,还包含步骤使用聚类结构用于对数据流中的数据进行分类。10.如权利要求9所述的方法,其中聚类结构维护步骤还包含以类别特定的方式维护一个或者多个聚类。11.如权利要求10所述的方法,还包含步骤将最接近聚类的类别标记标识为关于正被分类的数据的相关标记。12.一种用于处理数据流的设备,包含存储器;以及至少一个处理器,可以操作用于(i)维护一个聚类结构,该聚类结构表示数据流中的一个或多个聚类;(ii)使用该聚类结构中的数据点为一个或者多个聚类中的每一个聚类确定一个投影维度集;以及(iii)使用与用于一个或者多个聚类中每一个聚类的每个投影维度集相关联的距离,确定数据流中的进入数据点到一个或者多个聚类的分配。13.如权利要求12所述的设备,其中,分配确定...

【专利技术属性】
技术研发人员:查鲁C阿加瓦尔俞士伦
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1