当前位置: 首页 > 专利查询>莫毓昌专利>正文

一种基于距离的无参数多维数据聚类方法技术

技术编号:17007835 阅读:23 留言:0更新日期:2018-01-11 04:04
本发明专利技术涉及数据分析技术领域,具体涉及一种基于距离的无参数多维数据聚类方法,它采用如下的方法步骤:步骤一:从多维数据集D中随机选择一项数据x;步骤二:计算步骤一中的数据x和多维数据集D中其他各个数据项的距离值;步骤三:把所有步骤二中计算出的距离值按照数据项分别进行求和;计算各个距离值和与其均值之差的平方和;它通过对距离值和的迭代分析,克服了传统带参数的多维数据聚类方法如何适当的选择阈值H的问题,简化了多维数据聚类方法的难度。

【技术实现步骤摘要】
一种基于距离的无参数多维数据聚类方法
本专利技术涉及数据分析
,具体涉及一种基于距离的无参数多维数据聚类方法。
技术介绍
在对多维数据进行分析时,聚类是一种非常重要的分析技术。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类技术是把多维数据中特征相近的数据项归入同一类中。通常数据项之间的特征差别可以采用多维数据项x和y之间的距离Dx,y进行刻画:其中L是多维数据的维数,yi和xi是多维数据项x和y的第i维度的值。传统的基于距离的多维数据聚类方法需要设定一个阈值参数H,并约定同一类中的数据项之间的距离值不超过H。对于带参数的多维数据聚类方法,如何适当的选择阈值H提升了多维数据聚类的难度。
技术实现思路
本专利技术的目的在于针对现有技术的缺陷和不足,提供一种基于距离的无参数多维数据聚类方法,它通过对距离值和的迭代分析,克服了传统带参数的多维数据聚类方法如何适当的选择阈值H的问题,简化了多维数据聚类方法的难度。本专利技术所述的一种基于距离的无参数多维数据聚类方法,它采用如下的方法步骤:步骤一:从多维数据集D中随机选择一项数据x;步骤二:计算步骤一中的数据x和多维数据集D中其他各个数据项的距离值;步骤三:把所有步骤二中计算出的距离值按照数据项分别进行求和;计算各个距离值和与其均值之差的平方和;步骤四:若步骤三中的平方和比前一次计算得到的平方和小,则按照距离值和从小到大对多维数据集D进行排序,并记录排序结果,然后选择距离值和最大的数据项作为下一次聚类的x,重新执行步骤二-步骤四;步骤五:若该平方和不比前一次计算得到的平方和小,则停止排序工作;步骤六:对获得的多个排序,按照距离值从大到小的顺序进行数据项删除操作,直至各个排序中的数据项没有重复。在删除过程中,若某一数据项只存在于一个排序,则跳过该数据项的删除操作。采用上述结构后,本专利技术有益效果为:本专利技术所述的一种基于距离的无参数多维数据聚类方法,通过对距离值和的迭代分析,克服了传统带参数的多维数据聚类方法如何适当的选择阈值H的问题,简化了多维数据聚类方法的难度。【具体实施方式】下面将以具体实施例来详细说明本专利技术,其中的示意性实施例以及说明仅用来解释本专利技术,但并不作为对本专利技术的限定。本具体实施方式所述的一种基于距离的无参数多维数据聚类方法,它采用如下的方法步骤:步骤一:从多维数据集D中随机选择一项数据x;步骤二:计算步骤一中的数据x和多维数据集D中其他各个数据项的距离值;步骤三:把所有步骤二中计算出的距离值按照数据项分别进行求和;计算各个距离值和与其均值之差的平方和;步骤四:若步骤三中的平方和比前一次计算得到的平方和小,则按照距离值和从小到大对多维数据集D进行排序,并记录排序结果,然后选择距离值和最大的数据项作为下一次聚类的x,重新执行步骤二-步骤四;步骤五:若该平方和不比前一次计算得到的平方和小,则停止排序工作;步骤六:对获得的多个排序,按照距离值从大到小的顺序进行数据项删除操作,直至各个排序中的数据项没有重复。在删除过程中,若某一数据项只存在于一个排序,则跳过该数据项的删除操作。本专利技术以具体实施例来进行具体说明:步骤一:从多维数据集D(表一)中随机选择第3项数据x=(2,2,2,4),计算x和D中其他数据项的距离;表一:然后按照数据项分别对已计算出的距离值进行求和。因为是第一次计算距离值,所以距离值之和就是其本身;计算各个距离值和与其均值之差的平方和:(12.40967-9.9436)2+(16.27882-9.9436)2+(0-9.9436)2+(1.414214-9.9436)2+(13.34166-9.9436)2+(16.21727-9.9436)2=268.7479。再然后,根据距离值之和从小到大对数据集D进行排序,得下表(表二)表二:222432341097881189415513416312步骤二:从步骤1中的排序结果中选择最后一项数据x=(4,16,3,12),计算x和D中其他数据项的距离,如下表(表三)表三:然后按照数据项分别对已计算出的距离值进行求和,如下表(表四)表四:计算各个距离值和与其均值之差的平方和:(23.22632-19.0037)2+(16.27882-19.0037)2+(16.27882-19.0037)2+(17.5697-19.0037)2+(22.00191-19.0037)2+(18.66676-19.0037)2=43.83961;由于43.83961小于之前均差平方和268.7479,可以继续进行聚类。再根据距离值之和从小到大对数据集D进行排序,如下表(表五)表五:416312222432344155138118910978步骤三:从步骤二中的排序结果中选择最后一项数据x=(10,9,7,8),计算x和D中其他数据项的距离,如下表(表六)表六:然后按照数据项分别对已计算出的距离值进行求和,如下表(表七)表七:计算各个距离值和与其均值之差的平方和:(23.22632-26.9771)2+(27.09547-26.9771)2+(28.68849-26.9771)2+(28.97145-26.9771)2+(25.16419-26.9771)2+(26.71664-28.9771)2=27.30129;由于27.30129小于之前均差平方和43.83961,可以继续进行聚类。根据距离值之和从小到大对数据集D进行排序,如下表(表八)表八:109788118941631222244155133234步骤四:从步骤三中的排序结果中选择最后一项数据x=(3,2,3,4),计算x和D中其他数据项的距离,如下表(表八)表八:然后按照数据项分别对已计算出的距离值进行求和,如下表(表九)表九:计算各个距离值和与其均值之差的平方和:(34.62807-58.20246)2+(43.25096-58.20246)2+(30.102704-58.20246)2+(28.97145-58.20246)2+(37.654192-58.20246)2+(44.68536-58.20246)2=16395.68393;由于16395.68393大于之前均差平方和27.30129,停止进行聚类。步骤五:对步骤一至步骤三获得中间结果,表一、表三、表六,按照距离值从大到小消除。下表中消除的数据项标记为加粗斜体:表一、表三、表六消除到第11个数据项之后,三个表中不出现重复数据项了,此时停止消除。最后保留各个表中的未消除数据项得到的聚类结果为下表(表九、表十、表十一)表九:表十:表十一:本专利技术所述的一种基于距离的无参数多维数据聚类方法,通过对距离值和的迭代分析,克服了传统带参数的多维数据聚类方法如何适当的选择阈值H的问题,简化了多维数据聚类方法的难度。以上所述仅是本专利技术的较佳实施方式,故凡依本专利技术专利申请范围所述的特征及原理所做的等效变化或修饰,均包本文档来自技高网...

【技术保护点】
一种基于距离的无参数多维数据聚类方法,其特征在于:它采用如下的方法步骤:步骤一:从多维数据集D中随机选择一项数据x;步骤二:计算步骤一中的数据x和多维数据集D中其他各个数据项的距离值;步骤三:把所有步骤二中计算出的距离值按照数据项分别进行求和;计算各个距离值和与其均值之差的平方和;步骤四:若步骤三中的平方和比前一次计算得到的平方和小,则按照距离值和从小到大对多维数据集D进行排序,并记录排序结果,然后选择距离值和最大的数据项作为下一次聚类的x,重新执行步骤二‑步骤四;步骤五:若该平方和不比前一次计算得到的平方和小,则停止排序工作;步骤六:对获得的多个排序,按照距离值从大到小的顺序进行数据项删除操作,直至各个排序中的数据项没有重复。在删除过程中,若某一数据项只存在于一个排序,则跳过该数据项的删除操作。

【技术特征摘要】
1.一种基于距离的无参数多维数据聚类方法,其特征在于:它采用如下的方法步骤:步骤一:从多维数据集D中随机选择一项数据x;步骤二:计算步骤一中的数据x和多维数据集D中其他各个数据项的距离值;步骤三:把所有步骤二中计算出的距离值按照数据项分别进行求和;计算各个距离值和与其均值之差的平方和;步骤四:若步骤三中的平方和比前一次计算得到的平方和小,则按照距离值和...

【专利技术属性】
技术研发人员:莫毓昌
申请(专利权)人:莫毓昌
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1