当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于信息熵的聚类划分方法技术

技术编号:19823987 阅读:18 留言:0更新日期:2018-12-19 15:29
本发明专利技术涉及数据挖掘领域,特别涉及一种基于信息熵的聚类划分方法。一种基于信息熵的聚类划分方法,将聚类划分视为在符号空间中对数据集的一种表示形式,将数据表示中的不确定性表达为信息熵,通过迭代计算获得对数据集的聚类划分,每一次迭代过程中,首先计算每个聚类划分在特征空间中的一致性,进而利用加权方法计算当前聚类划分中任意两个簇构成的集合在符号空间中的一致性,并对一致性最低的两个簇进行合并,通过反复迭代直到满足停止条件,最终进行聚类划分结果的输出。

【技术实现步骤摘要】
一种基于信息熵的聚类划分方法
本专利技术涉及数据挖掘领域,特别涉及一种基于信息熵的聚类划分方法。
技术介绍
聚类分析是在没有任何可供学习的样本情况下,将对象集自动划分的一种分析方法,其核心是将对象组织成一个个的簇,以使得同一簇内的对象相似,而不同簇间的对象不相似。聚类分析在许多领域中有着重要的作用,例如人工智能,生物学,数据压缩,数据挖掘,图像处理,机器学习,营销,医药,模式识别,心理学和推荐系统等。聚类划分算法一般都需要采用相似性度量和聚类准则,而这当中潜含着对数据中包含的类结构的某种假设,当这些假设与样本数据不相符时,它可能产生错误或没有意义的结果。所以面对诸多的聚类算法,聚类分析者不但要完全理解特定的技术,而且也要了解数据获取过程的细节和一些领域知识以便做出适当的选择。然而,聚类作为一种非监督学习方法,由于对先验信息的缺失,导致对聚类划分结果的质量和有效性无法做出客观评价,使算法的可用性大打折扣。为此,应当为聚类过程设置一个有效性目标,在这一目标下获得数据集的最优聚类划分结果。公开号为CN106294394A的专利《数据聚类方法和数据聚类系统》公开了一种数据聚类方法和一种数据聚类系统,其中,所述方法包括:接收创建命令,创建反馈词集合;根据所述反馈词集合对当前数据进行聚类,以将所述当前数据聚类成多个当前类别,并将所述多个当前类别呈现给用户;接收所述用户对所述多个当前类别的第一反馈,以对所述反馈词集合进行更新。通过本专利技术的技术方案,通过用户的反馈对反馈词集合进行更新,从而使根据更新后的反馈词集合对数据进行聚类得到的类别是用户所感兴趣的,进而提高了数据聚类的准确率和效率。公开号为CN106991430A的专利《一种基于临近点法的聚类个数自动确定谱聚类方法》,包括以下步骤:1)对数据集的所有维进行了归一化处理;2)通过临近点法计算出区间稀疏距离矩阵以及定义为临近点距离均值的局部尺度参数,得到整体稀疏相似度矩阵;3)调用CCFD方法确定数据点的局部密度和具有更高局部密度的其他点的最小距离,得到在置信区间外的拟合产生的奇异点个数;4)依据公式计算出度矩阵D和拉普拉斯矩阵L,并对L进行特征分解取出特征向量组;5)输出聚类结果;6)选取最高Fitness函数值所对应的最优临近点个数的聚类结果进行输出。本专利技术能够根据数据分布估计每个数据点的局部尺度参数,自动确定聚类中心的个数,并且实现了临近点个数的参数自适应。公开号为CN106776751A的专利《一种数据的聚类方法和聚类装置》,用于解决现有聚类过程中受初始条件影响聚类效果差的技术问题。数据的聚类方法,包括:获取待处理数据,所述待处理数据包括测试数据和非测试数据;对测试数据进行第一分类处理,得到第一分类结果;采用初始预设值对测试数据进行第二分类处理,得到第二分类结果;比较所述第二分类结果和所述第一分类结果,当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时,将所述初始预设值作为目标预设值;当小于阈值时,不断调整所述初始预设值,直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值;采用目标预设值对非测试数据进行第二分类处理。一般情况下,对于数据集的记录和描述是在特征空间中利用特征向量实现的,而聚类划分结果可以视为在符号空间中利用聚类符号向量对数据集的描述,那么一个高质量的聚类划分结果应当在特征空间和符号空间中获得较高的对数据描述的一致性。为此,本专利技术提出一种基于信息熵的聚类划分方法,利用信息熵表达数据描述中的不确定性,进而分别计算聚类划分在特征空间和符号空间中对数据描述的一致性,在迭代计算框架下实现数据集的聚类划分,使聚类划分结果更具准确性和鲁棒性。
技术实现思路
本专利技术要解决的技术问题是:设计一种聚类划分方法,实现对数据集有效可靠的划分,使聚类结果能同时在特征空间和符号中间中获得较高的一致性。本专利技术将聚类划分视为在符号空间中对数据集的一种表示形式,将数据表示中的不确定性表达为信息熵,通过迭代计算获得对数据集的聚类划分,每一次迭代过程中,首先计算每个聚类划分在特征空间中的一致性,进而利用加权方法计算当前聚类划分中任意两个簇构成的集合在符号空间中的一致性,并对一致性最低的两个簇进行合并,通过反复迭代直到满足停止条件,最终进行聚类划分结果的输出。本专利技术所采用的技术方案是:一种基于信息熵的聚类划分方法,对于样本数量为N的数据集xi表示X中的第i个样本数据,利用迭代计算方法获得对X的聚类划分结果其中表示聚类划分结果中的第k个簇,K为聚类划分结果中簇的数量;每个样本数据中包含M个特征向量,M个特征向量构成的特征向量集合记为其中fj表示第j个特征向量,xi(F)表示样本数据xi在特征向量集合F上的取值,xi(fj)表示样本数据xi在第j个特征向量上的取值;将聚类划分视为对数据的一种符号表示,在迭代计算框架下每次迭代产生一组聚类划分,第m次迭代产生的聚类划分记作其中表示C(m)中的第sm个簇,Sm表示C(m)中的簇数量;第1~m次迭代产生的一系列聚类符号向量构成了集合表示第t次迭代形成的聚类划分对应的聚类符号向量,其中St表示第t次迭代形成的聚类划分中的簇数量,lt,st表示第t个聚类符号向量lt的第st个取值,即C(t)中的第st个簇的标签,xi(L(m))表示样本数据xi在聚类符号向量集合L(m)中的取值,即xi(L(m))样本数据xi在第1~m次迭代产生的一系列聚类划分中对应的全部簇标签,xi(lt)表示样本数据xi在第t个聚类符号向量上的取值,即xi(lt)表示样本数据xi在第t个聚类划分中对应的簇标签,通过迭代计算获得对数据集X的聚类划分结果的过程按照如下步骤进行S10、为便于计算,利用高斯核函数κ对样本空间中的特征向量集合F进行映射,得到新的集合FF,FF中的特征向量服从高斯分布;S20、初始化聚类划分C(1),在这一聚类划分中每个样本被作为一个簇,即其中表示初始聚类划分中的第n个簇;S30、每一次迭代形成一个聚类划分,第m次迭代时产生的聚类划分记为C(m),利用信息熵作为不确定性度量,计算当前聚类划分在特征空间中的一致性:计算特征向量集合FF关于数据集X的条件信息熵,用于表示特征向量集合对数据集描述的不确定性,并分别计算FF关于每个聚类划分的条件信息熵,用于表示特征向量集合对当前聚类划分描述的不确定性,将特征向量集合FF对当前聚类划分描述的不确定性相比对数据集描述的不确定性的降低量作为当前聚类划分在特征空间中的一致性;S40、依据每次迭代中聚类划分在特征空间中的一致性计算当前聚类划分的质量权重;S50、在第m次迭代时产生的聚类划分C(m)中任选2个簇分别记为和利用信息熵作为不确定性度量,计算两个簇构成的集合在符号空间中的一致性:对于m次迭代形成的m个聚类符号向量构成的集合计算聚类符号向量集合L(m)关于数据集X的条件信息熵,用于表示聚类符号向量集合对数据集描述的不确定性,并分别计算L(m)关于任意两个簇构成集合的条件信息熵,用于表示聚类符号向量集合对两个簇构成集合描述的不确定性,将聚类符号向量集合L(m)对两个簇构成集合描述的不确定性相比对数据集描述的不确定性的降低量作为这两个簇构成的集合在符号空间中的一致性;S60、本文档来自技高网
...

【技术保护点】
1.一种基于信息熵的聚类划分方法,其特征在于:对于样本数量为N的数据集

【技术特征摘要】
1.一种基于信息熵的聚类划分方法,其特征在于:对于样本数量为N的数据集xi表示X中的第i个样本数据,利用迭代计算方法获得对X的聚类划分结果其中表示聚类划分结果中的第k个簇,K为聚类划分结果中簇的数量;每个样本数据中包含M个特征向量,M个特征向量构成的特征向量集合记为其中fj表示第j个特征向量,xi(F)表示样本数据xi在特征向量集合F上的取值,xi(fj)表示样本数据xi在第j个特征向量上的取值;将聚类划分视为对数据的一种符号表示,在迭代计算框架下每次迭代产生一组聚类划分,第m次迭代产生的聚类划分记作其中表示C(m)中的第sm个簇,Sm表示C(m)中的簇数量;第1~m次迭代产生的一系列聚类符号向量构成了集合表示第t次迭代形成的聚类划分对应的聚类符号向量,其中St表示第t次迭代形成的聚类划分中的簇数量,lt,st表示第t个聚类符号向量lt的第st个取值,即C(t)中的第st个簇的标签,xi(L(m))表示样本数据xi在聚类符号向量集合L(m)中的取值,即xi(L(m))样本数据xi在第1~m次迭代产生的一系列聚类划分中对应的全部簇标签,xi(lt)表示样本数据xi在第t个聚类符号向量上的取值,即xi(lt)表示样本数据xi在第t个聚类划分中对应的簇标签,通过迭代计算获得对数据集X的聚类划分结果的过程按照如下步骤进行S10、为便于计算,利用高斯核函数κ对样本空间中的特征向量集合F进行映射,得到新的集合FF,FF中的特征向量服从高斯分布;S20、初始化聚类划分C(1),在这一聚类划分中每个样本被作为一个簇,即其中表示初始聚类划分中的第n个簇;S30、每一次迭代形成一个聚类划分,第m次迭代时产生的聚类划分记为C(m),利用信息熵作为不确定性度量,计算当前聚类划分在特征空间中的一致性:计算特征向量集合FF关于数据集X的条件信息熵,用于表示特征向量集合对数据集描述的不确定性,并分别计算FF关于每个聚类划分的条件信息熵,用于表示特征向量集合对当前聚类划分描述的不确定性,将特征向量集合FF对当前聚类划分描述的不确定性相比对数据集描述的不确定性的降低量作为当前聚类划分在特征空间中的一致性;S40、依据每次迭代中聚类划分在特征空间中的一致性计算当前聚类划分的质量权重;S50、在第m次迭代时产生的聚类划分C(m)中任选2个簇分别记为和利用信息熵作为不确定性度量,计算两个簇构成的集合在符号空间中的一致性:对于m次迭代形成的m个聚类符号向量构成的集合计算聚类符号向量集合L(m)关于数据集X的条件信息熵,用于表示聚类符号向量集合对数据集描述的不确定性,并分别计算L(m)关于任意两个簇构成集合的条件信息熵,用于表示聚类符号向量集合对两个簇构成集合描述的不确定性,将聚类符号向量集合L(m)对两个簇构成集合描述的不确定性相比对数据集描述的不确定性的降低量作为这两个簇构成的集合在符号空间中的一致性;S60、按照步骤S50所述方法,遍历第m次迭代时产生的C(m)中所有两个簇构成的集合,计算该合集在符号空间中的一致性,并选出一致性最小的合集对应的两个簇,将这两个簇进行合并,生成新的聚类划分记作C(m+1),并令m=m+1,当聚类划分中的簇数量等于K进入步骤S70,否则跳转至步骤S30进行下一次迭代;S70、则对聚类划分结果进行输出。2.根据权利要求1所...

【专利技术属性】
技术研发人员:杜航原白亮王文剑
申请(专利权)人:山西大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1