一种基于距离的无参数多维数据聚类方法技术

技术编号：17007835 阅读：23 留言：0更新日期：2018-01-11 04:04

本发明专利技术涉及数据分析技术领域，具体涉及一种基于距离的无参数多维数据聚类方法，它采用如下的方法步骤：步骤一：从多维数据集D中随机选择一项数据x；步骤二：计算步骤一中的数据x和多维数据集D中其他各个数据项的距离值；步骤三：把所有步骤二中计算出的距离值按照数据项分别进行求和；计算各个距离值和与其均值之差的平方和；它通过对距离值和的迭代分析，克服了传统带参数的多维数据聚类方法如何适当的选择阈值H的问题，简化了多维数据聚类方法的难度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于距离的无参数多维数据聚类方法
本专利技术涉及数据分析
，具体涉及一种基于距离的无参数多维数据聚类方法。
技术介绍
在对多维数据进行分析时，聚类是一种非常重要的分析技术。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。聚类技术是把多维数据中特征相近的数据项归入同一类中。通常数据项之间的特征差别可以采用多维数据项x和y之间的距离Dx,y进行刻画：其中L是多维数据的维数，yi和xi是多维数据项x和y的第i维度的值。传统的基于距离的多维数据聚类方法需要设定一个阈值参数H，并约定同一类中的数据项之间的距离值不超过H。对于带参数的多维数据聚类方法，如何适当的选择阈值H提升了多维数据聚类的难度。
技术实现思路
本专利技术的目的在于针对现有技术的缺陷和不足，提供一种基于距离的无参数多维数据聚类方法，它通过对距离值和的迭代分析，克服了传统带参数的多维数据聚类方法如何适当的选择阈值H的问题，简化了多维数据聚类方法的难度。本专利技术所述的一种基于距离的无参数多维数据聚类方法，它采用如下的方法步骤：步骤一：从多维数据集D中随机选择一项数据x；步骤二：计算步骤一中的数据x和多维数据集D中其他各个数据项的距离值；步骤三：把所有步骤二中计算出的距离值按照数据项分别进行求和；计算各...

【技术保护点】
一种基于距离的无参数多维数据聚类方法，其特征在于：它采用如下的方法步骤：步骤一：从多维数据集D中随机选择一项数据x；步骤二：计算步骤一中的数据x和多维数据集D中其他各个数据项的距离值；步骤三：把所有步骤二中计算出的距离值按照数据项分别进行求和；计算各个距离值和与其均值之差的平方和；步骤四：若步骤三中的平方和比前一次计算得到的平方和小，则按照距离值和从小到大对多维数据集D进行排序，并记录排序结果，然后选择距离值和最大的数据项作为下一次聚类的x，重新执行步骤二‑步骤四；步骤五：若该平方和不比前一次计算得到的平方和小，则停止排序工作；步骤六：对获得的多个排序，按照距离值从大到小的顺序进行数据项删除操作，直至各个排序中的数据项没有重复。在删除过程中，若某一数据项只存在于一个排序，则跳过该数据项的删除操作。

【技术特征摘要】
1.一种基于距离的无参数多维数据聚类方法，其特征在于：它采用如下的方法步骤：步骤一：从多维数据集D中随机选择一项数据x；步骤二：计算步骤一中的数据x和多维数据集D中其他各个数据项的距离值；步骤三：把所有步骤二中计算出的距离值按照数据项分别进行求和；计算各个距离值和与其均值之差的平方和；步骤四：若步骤三中的平方和比前一次计算得到的平方和小，则按照距离值和...

【专利技术属性】
技术研发人员：莫毓昌，
申请(专利权)人：莫毓昌，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人