当前位置: 首页 > 专利查询>英特尔公司专利>正文

使用t-检测计算的k-均值聚类的方法和设备技术

技术编号:2853489 阅读:222 留言:0更新日期:2012-04-11 18:40
一种用于使用t-检验计算进行k-均值聚类的方法、设备和系统。按照一个实施例,k-均值聚类在数据集上执行。在执行k-均值聚类的时候,具有不同点的数据集被分区成几个聚类。确定一个给定点对于一个给定聚类的紧密度。然后,执行t-检验计算以确定所述点与所述聚类之间的统计线性关系。如果接近于聚类的点被找到,并且所述点与所述聚类之间的统计线性关系也被找到,则所述点的位置就保持不动。

【技术实现步骤摘要】

本专利技术的实施例一般来说涉及聚类(clustering)。特别是,本专利技术的实施例涉及使用t-检验计算的k-均值聚类。
技术介绍
聚类是以数学公式为基础的在不同对象之间的相似性的度量。聚类被用来获得彼此相似而与属于其它聚类的对象不相似的对象的一种集合。这种多元的统计分析型聚类也称为非监督聚类分析、数值分类学和分类分析。例如,在分子生物学中,用聚类法根据生物基因或样本的统计学行为把它们分组或分类成单独的聚类,从而使相同聚类的成员之间的关联程度强,而不同聚类的成员之间的关联程度弱。聚类技术的例子包括贾维斯-帕特里克(Jarvis-Patrick),凝聚分层(Agglomerative Hierarchical),自组织映射(SOM)和K-均值。K-均值聚类是简单的非监督学习算法,它用于解决某些公知的聚类问题。K-均值算法被用于产生根据相似性的距离度量的聚类和固定尺寸的、平直的分类。传统的K-均值聚类算法遵循过分简单的方法,通过事先固定的聚类的给定数目(例如,k个聚类)把给定的数据集进行分类。换句话说,该k-均值算法从把事件分入k个聚类的初始分区开始(例如,在初始化时赋予一个k值)。该过程继续进行,修改分区以减少每个事件距该事件所属的聚类的均值的距离的总和。传统的k-均值的一个问题是,k的某个初始值必须只根据估算值被赋值。这样的k值经常是错误的,对最终结果产生负面影响。一种减小k值影响的方法是,以不同的随机产生的开始分区或初始k值重新运行该算法。因为在数据中的真实聚类的数目是不知道的,算法以更接近从数据所预期的聚类的数目的不同k值来运行,以确定距离的总和是怎样随着k值的增加而减小的。然而,这种重新运行k-均值算法的传统的方法是费时间的、低效率的、麻烦的、且仍然不能消除或明显减小k对最终解答的负面影响。
技术实现思路
根据本专利技术,提供了一种方法,包括执行具有多个点的数据集的k-均值聚类,其中,所述执行k-均值聚类包括把所述数据集分区成多个聚类;确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度;执行t-检验计算以确定所述点和所述聚类之间的统计线性关系;和如果所述点接近于所述聚类,并且如果所述点与所述聚类有统计线性关系,则保持所述数据集中所述点的当前位置。根据本专利技术,还提供了一种设备,包括存储介质,它存储指令组,以便使用t-检验计算执行k-均值聚类;以及与所述存储介质耦合的处理器,所述处理器用于执行具有多个点的数据集的k-均值聚类,其中执行所述k-均值聚类包括把所述数据集分区成多个聚类,确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度,执行所述t-检验计算,以确定所述点和所述聚类之间的统计线性关系,以及如果所述点接近所述聚类,并且如果所述点与所述聚类有统计线性关系,则保持所述数据集中的所述点的当前位置。根据本专利技术,还提供了一种系统,包括k-均值模块,用于执行具有多个点的数据集的k-均值聚类,其中所述k-均值聚类的执行包括把所述数据集分区成多个聚类;皮尔逊相关系数模块,用于确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度;t-检验模块,用于执行t-检验计算以确定所述点和所述聚类之间的统计线性关系;和定位模块,用于如果所述点与所述聚类接近,并且如果所述点与所述聚类具有统计线性关系,则保持数据集中的所述点的当前位置。根据本专利技术,还提供了一种机器可读介质,在它上面存储有代表指令组的数据,当所述机器执行所述指令组的时候,使得所述机器执行如下操作对具有多个点的数据集执行k-均值聚类,其中所述k-均值聚类的执行包括把所述数据集分区成多个聚类;确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度;执行t-检验计算以确定所述点与所述聚类之间的统计线性关系;和如果所述点接近于所述聚类,并且所述点与所述聚类具有统计线性关系,则保持所述数据集中的所述点的当前位置。附图说明所附权利要求具体陈述了本专利技术的实施例的特点。下面结合附图的详细描述可以更好地理解本专利技术的实施例及其优点,其中图1是方块图,说明使用t-检验计算的k-均值聚类的实施例;图2是方块图,说明参照图1所述的k-均值聚类一起使用的t-检验计算的实施例;图3是方块图,说明使用标准k-均值聚类和使用t-检验计算的k-均值聚类的对比试验的结果;图4是流程图,说明执行使用t-检验计算的k-均值聚类的过程的实施例;和图5是方块图,说明在实现本专利技术的实施例中使用的示范的计算机系统。具体实施例方式下面描述使用t-检验计算的k-均值聚类的系统和方法。在整个描述中,为了解释,陈述了许多具体的细节,为的是彻底理解本专利技术的实施例。不过,明显的是,对于本领域的普通技术人员来说,没有这些具体细节中的某些,也能实现本专利技术。在其它情况下,公知的结构和装置也以方块图的形式示出,为的是避免使本专利技术的基本原理变得不清楚。在下面的描述中,对于许多具体细节例如逻辑实现,操作码,资源分区,资源共享和资源复制实现,系统部件的类型和相互关系,以及逻辑分区/集中的选择都进行了陈述,为的是更彻底地理解本专利技术的各种实施例。不过,本领域的普通技术人员将意识到,根据所提供的公开的内容,没有这样的具体的细节,也可以实现本专利技术的实施例。在其它情况下,控制结构,门电平电路和完整的软件指令序列没有被详细示出,为的是不使本专利技术变得模糊不清。本领域的那些普通的技术人员,根据这里所包括的描述,将能在无需过度试验的情况下,实现适当的功能。下面描述本专利技术的各种实施例。各种实施例可以通过硬件部件来执行,或可以在机器可执行指令中体现,这些指令可用于使通用的或专用的处理器或者用该指令编程的机器或逻辑电路去执行各种实施例。或者,各种实施例可以通过硬件和软件的结合来执行。本专利技术的各种实施例可以作为计算机程序产品来提供,其可以包括在其上存储有指令的机器可读介质,这些指令可以用来对计算机(或其它电子设备)编程,以便执行按照本专利技术各种实施例的过程。机器可读介质可能包括,但不限于,软盘,光盘,光盘只读存储器(CD-ROM),磁光盘,只读存储器(ROM),随机存取存储器(RAM),可擦可编程只读存储器(EPROM),电可擦可编程只读存储器(EEPROM),磁卡或光卡,闪存,或适合于存储电子指令的其它类型的介质/机器可读介质。再者,本专利技术的各种实施例还可以作为计算机程序产品下载,其中通过包含在载波中的数据信号或经过通信链路的其它传播介质(例如,调制解调器或网络连接),把程序从远程计算机传送到请求的计算机。图1是方块图,说明使用t-检验计算106的k-均值聚类100的实施例。在一个实施例中,检验一个点和它的最接近的聚类之间的相关性的k-均值聚类100,是通过使用t-检验计算106执行的,以估计聚类结果是否具有它的统计显著性。使用k-均值聚类100的具有k-均值算法的t-检验计算106,消除了对k的初始值的依赖和及其影响,例如,在基因聚类中,执行聚类而无任何初始分区(例如,k的值)。这就有助于消除不正确的k的初始值造成的坏结果。换句话说,在一个实施例中,k-均值聚类100的结果或最终解答可以从初始状态102的任一个k值(例如,k=1)开始,因为当使用具有k-均值聚类100的t-检验计算106时,k的数值变得与最终解答没有关系本文档来自技高网
...

【技术保护点】
一种方法,包括:执行具有多个点的数据集的k-均值聚类,其中,所述执行k-均值聚类包括把所述数据集分区成多个聚类;确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度;执行t-检验计算以确定所述点和所述聚类之间 的统计线性关系;和如果所述点接近于所述聚类,并且如果所述点与所述聚类有统计线性关系,则保持所述数据集中所述点的当前位置。

【技术特征摘要】
US 2004-9-29 10/9556031.一种方法,包括执行具有多个点的数据集的k-均值聚类,其中,所述执行k-均值聚类包括把所述数据集分区成多个聚类;确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度;执行t-检验计算以确定所述点和所述聚类之间的统计线性关系;和如果所述点接近于所述聚类,并且如果所述点与所述聚类有统计线性关系,则保持所述数据集中所述点的当前位置。2.如权利要求1所述的方法,还包括如果所述点不接近所述聚类,则把所述点移入最接近的聚类。3.如权利要求1所述的方法,还包括如果所述点不接近所述聚类,并且所述点与所述聚类没有统计线性关系,则生成新的聚类;以及把所述点移入所述新的聚类。4.如权利要求3所述的方法,其中使用隔离机制执行所述新聚类的生成。5.如权利要求1所述的方法,其中使用皮尔逊相关系数执行所述接近度的确定。6.如权利要求1所述的方法,其中执行所述t-检验计算以确定统计线性关系还包括设定预定的显著性值;使用t表和皮尔逊相关系数确定p值;以及通过比较所述p值和所述预定的显著性值来确定所述统计线性关系,其中如果所述p值小于或等于所述预定的显著性值,就找到了所述统计线性关系。7.一种设备,包括存储介质,它存储指令组,以便使用t-检验计算执行k-均值聚类;以及与所述存储介质耦合的处理器,所述处理器用于执行具有多个点的数据集的k-均值聚类,其中执行所述k-均值聚类包括把所述数据集分区成多个聚类,确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度,执行所述t-检验计算,以确定所述点和所述聚类之间的统计线性关系,以及如果所述点接近所述聚类,并且如果所述点与所述聚类有统计线性关系,则保持所述数据集中的所述点的当前位置。8.如权利要求7所述的设备,其中如果所述点不接近所述聚类,则所述处理器就进一步把所述点移入最接近的聚类。9.如权利要求7所述的设备,其中如果所述点不接近所述聚类,并且所述点与所述聚类没有统计线性关系,则所述处理器就进一步生成新的聚类;并且把所述点移入所述新的聚类。10.如权利要求9所述的设备,其中使用隔离机制执行所述新聚类的生成。11.如权利要求7所述的设备,其中使用皮尔逊相关系数执行所述接近度的确定。12.如权利要求7所述的设备,其中所述处理器还进行设定预定的显著性值;使用t表和皮尔逊相关系数确定p值;以及通过把所述P值与预定的显著性值进行比较来确定所述统计线性关系,其中如果所述p值小于或等于所述预定的显著性值,则所述统计线性关系就被找到。13.一...

【专利技术属性】
技术研发人员:Q刁
申请(专利权)人:英特尔公司
类型:发明
国别省市:US[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1