当前位置: 首页 > 专利查询>福州大学专利>正文

基于分子内聚力理论的数据聚类方法技术

技术编号:6045349 阅读:357 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于分子内聚力理论的数据聚类方法,其特征在于:对于高维空间上具有N个数据点的数据集,设每个数据点为一个分子,设多个数据点形成的聚类为分子团,基于分子内聚力理论进行数据聚类:步骤一:计算两两数据点之间的内聚力能量值并保存;步骤二:各数据点并行寻找能使合并总能量降低且降到最低的数据点,与其合并为一个聚类,通过该步骤得到多个聚类和未聚类的数据点;步骤三:各数据点和聚类并行寻找能使合并总能量降低且降到最低的数据点或聚类,与其合并为一个新的聚类;步骤四:重复步骤(3),直至所有数据点或聚类都无法使其他数据点或聚类能量降低,所有数据点聚类完成。该方法不用事先估计类别数目,提高了聚类结果的准确性。

Data clustering method based on the theory of molecular cohesion

The invention relates to a data clustering method based on the theory of molecular cohesion, characterized in that: a N data points for high dimensional data sets, each data point as a molecular cluster, a plurality of data points for the formation of molecules, using the theory of data clustering based on molecular cohesion. Step 1: Calculation between 22 data points of the cohesive force and energy conservation; step two: the data points with parallel seeking to make the total energy and reduce to a minimum the data points, and merged into a cluster, a plurality of data points without clustering and clustering obtained by this procedure; step three: the data and seeking to make the clustering parallel with total energy is reduced and reduced to the lowest point or data clustering, and merged into a new cluster; step four: repeat step (3), until all the data points or no clustering The method reduces the energy of other data points or clusters, and completes the clustering of all data points. The method does not estimate the number of categories in advance, and improves the accuracy of clustering results.

【技术实现步骤摘要】

本专利技术涉及数据聚类
,特别是一种基于分子内聚力理论的数据聚类方 法。
技术介绍
聚类是以数学公式为基础的在不同对象之间的相似度的度量。聚类用来获得彼此 相似而与属于其他聚类的对象不相似的对象的一种集合。例如,在数据挖掘领域中,用聚类 法对数据中的模型和关系进行辨识,提取隐含其中有用的信息和知识。关于聚类算法有很 多,如 K-MEANS、CURE、DBSCAN、STING、EM、CLIQUE 等。K-means算法是目前为止应用最为广泛的一种聚类算法,它用于解决某些公知的 聚类问题。K-means算法被用于产生根据相似性的距离度量的聚类。K-means聚类算法遵 循过分简单的方法,通过事先固定的聚类的给定数目,如k个聚类,把固定的数据集进行分 类。也就是说,该算法以选择的k个对象为初始聚类的中心,初始的代表为一个簇,该过程 继续进行,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。K-means的一个问题 是,k的某个初始值只是根据估算值被赋值的。这样的k值经常是错误的,对最终结果产生 负面影响。即使重新初始化k值运行算法,算法可能会以更接近从数据所预期的聚类的数 目的本文档来自技高网...

【技术保护点】
一种基于分子内聚力理论的数据聚类方法,其特征在于:对于高维空间上具有N个数据点的数据集,设每个数据点为一个分子,设多个数据点形成的一个聚类为一个分子团,基于分子内聚力理论按如下步骤进行数据聚类:步骤(1):利用分子势能公式分别计算两两数据点之间的内聚力能量值,并保存;步骤(2):各数据点并行寻找能使合并总能量降低且降到最低的数据点,与其合并为一个聚类,根据聚类完成的先后顺序,当一个数据点A被另一数据点B合并为一个聚类后,所述数据点A不再主动寻找与其聚类的数据点,也不再以单个数据点形式作为其他数据点的聚类选择对象;通过该步骤得到多个聚类和未找到使合并总能量降低数据点而无法聚类的数据点;步骤(3)...

【技术特征摘要】

【专利技术属性】
技术研发人员:余春艳张栋王秀姜云飞李建明
申请(专利权)人:福州大学
类型:发明
国别省市:35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1