一种基于谱聚类的BOW图匹配方法及系统技术方案

技术编号:34330121 阅读:14 留言:0更新日期:2022-07-31 01:54
本发明专利技术公开了一种基于谱聚类的BOW图匹配方法及系统,方法包括如下过程:提取引文网络图的节点特征和拓扑特征;使用谱聚类算法结合经遗传算法对K值优化得到的优化的K

A bow graph matching method and system based on spectral clustering

【技术实现步骤摘要】
一种基于谱聚类的BOW图匹配方法及系统


[0001]本专利技术属于图匹配算法领域,涉及一种基于谱聚类的BOW图匹配方法及系统。

技术介绍

[0002]随着信息技术的迅速发展,网络上出现了各种各样类型的数据,有能够用数据或统一的结构来表示的结构化数据,也有无法用数据或统一的结构来表示的非结构化数据,还有一些根据实际需要变化,无预先定义模式的半结构化数据,这种数据格式的异构性,极大的阻碍了人们对信息的有效利用。在如此大规模的数据中,具有自身特色的图数据逐渐成为一种常规的数据类型。
[0003]图能够准确表达不同数据之间关系的拓扑结构,因此,图数据在社会关系网络、文档处理、化合物集合等各个领域有着广泛的应用。例如在化学领域中,图数据所代表的有机或无机化合物的内部结构都蕴含大量人们所关注的有效信息,十分的丰富与形象。从系统角度看,图代表系统和组成部分间的交互;从集成角度看,图描述了连接这个对象到系统其他对象的所有关系,图甚至被哲学家证明它是作为数学结构上描述世界的最好方法,这也从侧面体现了图结构的优越性;从算法角度看,因为所有的常见数据类型都可以被看作是简单图结构的实例化,所以图的适用范围极其广泛,尽管图具有如此优越的特性,但图结构的实现从计算上看代价非常昂贵。因此研究基本的图匹配方法具有理论意义与实用价值。
[0004]如何对大量积累的图数据进行高效检索以便获得有价值的信息已成为众多领域关注的问题,从图数据中挖掘相应的图模式信息并构造算法复杂度较低的图匹配算法是当前模式识别领域研究的热点问题,这也带来了对图检索及结构模式识别的基础方法:高效图匹配方法的应用需求。所谓图匹配,是指在两个图的节点和边之间寻找对应关系的过程,这种对应关系应该满足一定的约束条件,使得可以将一个图中的子结构映射为另一个图中与其对应的相似结构。图匹配算法是从海量图数据中获取有效信息的基础方法,但因为图匹配算法复杂度高,所以图匹配的研究具有挑战性。因此,研究匹配速度较快、对匹配精度要求相对较高的算法,来实现基本的图匹配,即图与图之间的相似性测量便显得尤为必要。
[0005]BOW模型是模式识别中一种比较优秀的方法,但是目前基于BOW模型的方法仍有不足之处。如语义映射过程中映射方法的不完善导致的视觉单词不易于区分的问题、视觉单词之间的语义关联性利用不足等。

技术实现思路

[0006]本专利技术的目的在于克服上述现有技术的缺点,提供了一种基于谱聚类的BOW图匹配方法及系统,本专利技术利用谱聚类算法对高维数据集进行聚类,然后在低维解空间采用K

means算法进行二阶段聚类,解决了对高维数据处理效果不佳以及分类效果不高的问题。
[0007]为了实现上述目的,本专利技术采用以下技术方案予以实现:
[0008]一种基于谱聚类的BOW图匹配方法,包括如下过程:
[0009]提取引文网络图的节点特征和拓扑特征;
[0010]使用谱聚类算法结合经遗传算法对K值优化得到的优化的K

means++算法将引文网络图的节点特征和拓扑特征描述子转换为单词,实现词典的构建;
[0011]使用局部约束编码的方式对所述词典进行特征编码,得到视觉词汇直方图;
[0012]对视觉词汇直方图进行分类,实现基于谱聚类的BOW图匹配方法。
[0013]优选的,提取引文网络图的拓扑特征过程包括:提取引文网络图的拓扑特征并利用拓扑特征构造出图拓扑特征向量。
[0014]优选的,所述拓扑特征为引文网络图中点与边之间的连接关系,利用空间句法理论的方法,构造出适合于非精确图匹配的图拓扑特征向量,所述拓扑特征包括节点介数、控制值、连接值、平均深度值和集成度。
[0015]优选的,利用遗传算法对K值优化得到的优化的K

means++算法的过程包括如下步骤:
[0016]1)设置K值的取值范围,并随机生成初始种群,设当前代数t=1;
[0017]2)根据染色体获得的K值,构建BOW模型,然后计算模型分类正确的个数及误差;
[0018]3)选择优胜的个体,进行交叉、变异操作,得到下代种群;
[0019]4)设当前代数t=t+1;
[0020]5)判断t是否大于设定的代数T或误差函数J
m
是否等于0,满足其中一个条件,跳回步骤2),否则,进行步骤6);
[0021]6)输出一组优化过后的K值,实现对K

means算法的优化,得到优化的K

means++算法。
[0022]优选的,使用谱聚类算法结合优化的K

means++算法的计算过程包括如下步骤:
[0023]1)将输入的数据生成对角矩阵D和n
×
n的邻接矩阵A;
[0024]2)利用对角矩阵D和n
×
n的邻接矩阵A计算拉普拉斯矩阵L
rsym

[0025]3)计算L
rsym
的特征值,将特征值从小到大排序,取前k个特征值,并计算前k个特征值的特征向量u1,u2,

u
k
;将k个列向量组成矩阵U={u1,u2,

u
k
},U∈R
n*k

[0026]4)令y
i
∈R
k
是U的第i行的向量,其中i=1,2,

,n,然后将y
i
∈R
k
依次单位化,使得|y
i
|=1;
[0027]5)通过优化的K

means++算法将新样本点Y={y1,y2,

y
n
}聚类成簇C1,C2,

,C
k

[0028]6)输入簇A1,A2,

,A
k
,其中,A
i
={j|y
j
∈C
i
}。
[0029]优选的,对视觉词汇直方图进行分类时采用SVM分类器算法进行分类。
[0030]本专利技术还提供了一种基于谱聚类的BOW图匹配系统,包括:
[0031]特征提取模块:用于提取引文网络图的节点特征和拓扑特征;
[0032]词典构建模块:用于使用谱聚类算法结合经遗传算法对K值优化得到的优化的K

means++算法将引文网络图的节点特征和拓扑特征描述子转换为单词,实现词典的构建;
[0033]特征编码模块:用于使用局部约束编码的方式对所述词典进行特征编码,得到视觉词汇直方图;
[0034]分类模块:用于对视觉词汇直方图进行分类,实现基于谱聚类的BOW图匹配方法。
[0035]本专利技术还提供了一种电子设备,包括:
[0036]一个或多个处理器;
[0037]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于谱聚类的BOW图匹配方法,其特征在于,包括如下过程:提取引文网络图的节点特征和拓扑特征;使用谱聚类算法结合经遗传算法对K值优化得到的优化的K

means++算法将引文网络图的节点特征和拓扑特征描述子转换为单词,实现词典的构建;使用局部约束编码的方式对所述词典进行特征编码,得到视觉词汇直方图;对视觉词汇直方图进行分类,实现基于谱聚类的BOW图匹配方法。2.根据权利要求1所述的一种基于谱聚类的BOW图匹配方法,其特征在于,提取引文网络图的拓扑特征过程包括:提取引文网络图的拓扑特征并利用拓扑特征构造出图拓扑特征向量。3.根据权利要求2所述的一种基于谱聚类的BOW图匹配方法,其特征在于,所述拓扑特征为引文网络图中点与边之间的连接关系,利用空间句法理论的方法,构造出适合于非精确图匹配的图拓扑特征向量,所述拓扑特征包括节点介数、控制值、连接值、平均深度值和集成度。4.根据权利要求1所述的一种基于谱聚类的BOW图匹配方法,其特征在于,利用遗传算法对K值优化得到的优化的K

means++算法的过程包括如下步骤:1)设置K值的取值范围,并随机生成初始种群,设当前代数t=1;2)根据染色体获得的K值,构建BOW模型,然后计算模型分类正确的个数及误差;3)选择优胜的个体,进行交叉、变异操作,得到下代种群;4)设当前代数t=t+1;5)判断t是否大于设定的代数T或误差函数J
m
是否等于0,满足其中一个条件,跳回步骤2),否则,进行步骤6);6)输出一组优化过后的K值,实现对K

means++算法的优化,得到优化的K

means++算法。5.根据权利要求4所述的一种基于谱聚类的BOW图匹配方法,其特征在于,使用谱聚类算法结合优化的K

means++算法的计算过程包括如下步骤:1)将输入的数据生成对角矩阵D和n
×
n的邻接矩阵A;2)利用对角矩阵D和n
×
n的邻接矩阵A计算拉普拉斯矩阵L
rsym
:3)计算L
rsym
的特征值,将特征值从小到大排序,取前k个特征值,...

【专利技术属性】
技术研发人员:李智杰王新宇李昌华张颉介军
申请(专利权)人:西安建筑科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1