一种面向目标识别的知识图谱辅助特征聚类与选择方法技术

技术编号:33647875 阅读:18 留言:0更新日期:2022-06-02 20:25
本发明专利技术涉及一种面向目标识别的知识图谱辅助特征聚类与选择方法,涉及计算机领域;该方法一方面提供了一种面向目标识别的知识图谱辅助特征聚类方法,该方法能够将目标识别的训练数据集和对应的知识图谱中的目标特征投影到一个公共特征空间,其中在同一投影方向上、具有大系数的异质变量形成一个公共模块。通过这种方法可以实现将显著特征聚类到显著共表达模块;另外一方面,提供一种面向目标识别的知识图谱辅助特征选择方法,能够将第一部分筛选出的训练数据集和目标数据集显著特征进行关联分析,进而按需求选出其中的Top特征用于后续分类。通过本发明专利技术的方法,解决了目标识别领域训练数据集特征冗余以及分类准确率低下的技术问题。低下的技术问题。低下的技术问题。

【技术实现步骤摘要】
一种面向目标识别的知识图谱辅助特征聚类与选择方法


[0001]本专利技术涉及计算机领域,具体涉及一种面向目标识别的知识图谱辅助特征聚类与选择方法。

技术介绍

[0002]战场海空目标识别是指挥员进行作战决策的依据,将影响兵力分配、时机把握和作战效果,历次战争中出现过因目标识别错误而误伤的惨痛教训。为了提高目标识别能力,战场海空目标识别技术正向智能化方向发展。为了进一步准确地识别目标,需要使用标注数据预先训练一个分类模型。在识别模型训练过程中,需要对大量的识别目标进行特征选择,所选特征的数量及其重要程度直接影响到分类准确率,进而影响目标识别的识别效果。
[0003]现有的特征聚类算法以联合非负矩阵分解(Joint Non

negative Matrix Factorization,JNMF)为主,JNMF算法同时将两种数据投影到一个公共特征空间,其中在同一投影方向上具有大系数的异质变量形成一个公共模块。在JNMF的基础上,将先验知识加入能够有效提高模型的特征关联分析性能。但是,大多数改进算法对数据中存在的噪声较为敏感,在噪声较大的情况下无法正确选择重要特征。联合稀疏典型相关分析(Joint Sparse Canonical Correlation Analysis,JSCCA)是一种具有代表性的特征选择算法。JSCAA通过得到两种数据特征之间最大相关性的线性组合挖掘更显著的特征。在JSCAA基础上,也可加入各种先验知识以增强数据之间的相关性。但是JSCAA及其改进算法大多为无监督方法,无法在不同组别之间同时执行并寻找组别之间的特征差异。
[0004]知识图谱在本体基础上增加了更丰富的关于实体的信息,显示表达了实体间关系,是一个全局知识库,是支撑智能搜索和深度问答等智能应用的基础。现有技术的特征关联分析与选择方法的准确率和召回率不高,不能满足实际应用的需要。如何高效利用已有的知识图谱中的目标数据集信息进行有效的特征聚类与选择,进而训练出准确率高、召回率高的识别模型,目前尚未提出有效的技术方案。

技术实现思路

[0005]为了解决上述技术问题,本专利技术提供了一种面向目标识别的知识图谱辅助特征聚类与选择方法,通过该方法提高目标识别模型的分类准确率。
[0006]本专利技术的技术目的是通过以下技术方案实现的:
[0007]一种面向目标识别的知识图谱辅助特征聚类方法,该方法包括:
[0008]S1、对原始训练数据集经L2范数归一化,得到预处理后的训练样本数值矩阵X;
[0009]S2、在知识图谱中依据训练数据标签找出对应的目标全部特征,对得到目标全部特征经L2范数归一化处理得到知识图谱中的数值矩阵Y;
[0010]S3、将数值矩阵X和数值矩阵Y放入JCB

SNMF模型中,JCB

SNMF模型将数值矩阵X和数值矩阵Y拼接在一起后分解得到一个公共的基矩阵W和系数矩阵H1及系数矩阵H2;
[0011]S4、使用z

score对系数矩阵H1及系数矩阵H2分别归一化处理,得到系数矩阵H1及
系数矩阵H2中每个元素的z得分;公共基矩阵的列数为模块数,设定阈值T,若元素的z得分大于阈值T,则该元素分配到共同表达模块中;
[0012]S5、计算每个共同表达模块的显著性,选择显著性最高的共同表达模块;
[0013]S6、提取显著性最高的共同表达模块中的特征更新到数值矩阵X和数值矩阵Y中。
[0014]进一步地,将元素的z得分定义为zij,其中hij代表系数矩阵H1或系数矩阵H2中的元素,μ
i
代表系数矩阵H1或系数矩阵H2中每行的均值,σ
i
代表系数矩阵H1或系数矩阵H2中每行的标准差。
[0015]进一步地,公共的基矩阵W包含样本聚类信息,系数矩阵H1和系数矩阵H2分别包含数值矩阵X和数值矩阵Y的所有特征。
[0016]进一步地,计算共同表达模块的显著性时,先计算同一共同表达模块中元素的平均关联性ρ
*
,其中a
g
、b
t
分别表示数值矩阵X和数值矩阵Y中选出的列向量,s=1、2、3...l1,t=1、2、3...l2;然后随机改变共同表达模块的行向量的顺序,重复

次;最后计算共同表达模块的显著性p,(公式9)其中是每次改变共同表达模块的行向量后由计算得到的新的平均相关系数,θ代表的次数,如果p小于0.05,则该模块是显著的。
[0017]一种面向目标识别的知识图谱辅助特征选择方法,该方法包括:将面向目标识别的知识图谱辅助特征聚类方法的S6中得到的数值矩阵X和数值矩阵Y放入MT

SCCALR模型中,计算各类目标特征的权重向量u
c
,根据各类目标特征的权重向量u
c
的绝对值选取TOP特征。
[0018]进一步地,将S6中得到的数值矩阵X和数值矩阵Y放入MT

SCCALR模型后,利用五折交叉验证的方法调整MT

SCCALR模型中的参数,选取测试结果的相关系数最高的参数组合。
[0019]进一步地,权重向量量其中,Xc代表X矩阵的第c个模态,uc是存放Xc每个特征权重的列向量,Yc代表Y矩阵的第c个模态,vc是存放Yc每个特征权重的列向量,Luc是Xc的拉普拉斯矩阵,H表达为H(x,β)=sgn(x)max(|x|

β,0)。
[0020]进一步地,测试结果相关系数表达为(公式18)::其中和是第t折用于测试集的数据,u
t
和v
t
是训练集计算得到的典型相关系数;Corr(.)代表求皮尔森相关系数,该公式是计算经五折交叉验证后和的相关系数,这个指标是衡量基于SCCA算法好坏的重要指标,所以用这个指标来进行参数选取。CV(λ,β,γ)是指五折交叉验证后求出的皮尔森相关系数,最后取一组使相关系数最大的λ,β,γ的组合作为参数选取结果。
[0021]相比现有技术,本专利技术的有益效果在于:
[0022]1、本专利技术一方面提供了一种特征聚类方法,该方法能够将目标识别的训练数据集
和对应的知识图谱中的目标特征投影到一个公共特征空间,其中在同一投影方向上、具有大系数的异质变量形成一个公共模块,通过这种方法可以实现将显著特征聚类到显著共表达模块。
[0023]2、本专利技术还提供了一种面向目标识别的知识图谱辅助特征选择方法,该方法能够将特征聚类筛选出的训练数据集和目标数据集显著特征进行关联分析,进而按需求选出其中的Top特征用于后续分类,解决了目标识别领域训练数据集特征冗余以及分类准确率低下的技术问题。
附图说明
[0024]图1是本专利技术中的面向目标识别的知识图谱辅助特征聚类方法流程示意图。
具体实施方式
[0025]下面结合具体实施方式对本专利技术的技术方案进行进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向目标识别的知识图谱辅助特征聚类方法,其特征在于,该方法包括:S1、对原始训练数据集经L2范数归一化,得到预处理后的训练样本数值矩阵X;S2、在知识图谱中依据训练数据标签找出对应的目标全部特征,对得到目标全部特征经L2范数归一化处理得到知识图谱中的数值矩阵Y;S3、将数值矩阵X和数值矩阵Y放入JCB

SNMF模型中,JCB

SNMF模型将数值矩阵X和数值矩阵Y拼接在一起后分解得到一个公共的基矩阵W和系数矩阵H1及系数矩阵H2;S4、使用z

score对系数矩阵H1及系数矩阵H2分别归一化处理,得到系数矩阵H1及系数矩阵H2中每个元素的z得分;公共基矩阵的列数为模块数,设定阈值T,若元素的z得分大于阈值T,则该元素分配到共同表达模块中;S5、计算每个共同表达模块的显著性,选择显著性最高的共同表达模块;S6、提取显著性最高的共同表达模块中的特征更新到数值矩阵X和数值矩阵Y中。2.根据权利要求1所述的一种面向目标识别的知识图谱辅助特征聚类方法,其特征在于,将元素的z得分定义为z
ij
,其中h
ij
代表系数矩阵H1或系数矩阵H2中的元素,μ
i
代表系数矩阵H1或系数矩阵H2中每行的均值,σ
i
代表系数矩阵H1或系数矩阵H2中每行的标准差。3.根据权利要求1所述的一种面向目标识别的知识图谱辅助特征聚类方法,其特征在于,所述公共的基矩阵W包含样本聚类信息,系数矩阵H1和系数矩阵H2分别包含数值矩阵X和数值矩阵Y的所有特征。4.根据权利要求1所述的一种面向目标识别的知识图谱辅助特征聚类方法,其特征在于,计算共同表达模块的显著性时,先计算同一共同表达模块中元素的平均关联性ρ
*
,其中a
g
、b
t
分别表...

【专利技术属性】
技术研发人员:桂洪冠位凯陈运文纪达麒谭新陈希雷董学强
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1