一种带有缺失标记的不完备数据的多标记分类方法及装置制造方法及图纸

技术编号:30427300 阅读:25 留言:0更新日期:2021-10-24 17:13
本发明专利技术涉及一种带有缺失标记的不完备数据的多标记分类方法及装置,属于数据分类技术领域。本发明专利技术首先基于邻域粗糙集理论,通过样本之间的差异性和相似性,构造了邻域可辨识和不可辨识矩阵,以此恢复不完备的信息,并得到所恢复信息的特征权重矩阵;然后基样本之间的模糊相似关系,结合模糊相似关系、回归模型以及特征权重矩阵建立考虑特征之间非线性关系的新的目标函数,并通过梯度下降方法对其进行优化求解,从而实现对带有缺失标记的不完备数据的多标记分类。本发明专利技术充分考虑了特征之间的非线性关系,大大提高了带有缺失标记的不完备数据的多标记分类的精度和效率。数据的多标记分类的精度和效率。数据的多标记分类的精度和效率。

【技术实现步骤摘要】
一种带有缺失标记的不完备数据的多标记分类方法及装置


[0001]本专利技术涉及一种带有缺失标记的不完备数据的多标记分类方法及装置,属于数据分类


技术介绍

[0002]近年来,多标记学习吸引了越来越多来自各个领域学者的研究兴趣。多标记学习解决了每个样本同时与多个语义标记相关联的问题。例如,一篇新闻报道可以属于政治,经济学和文化等多个主题。多标记学习的目标是训练一个分类模型,该模型可以为每个未标记的实例分配一组相关的标记。由于其在真实场景中的重要性,目前,已经提出了许多多标记分类的方法,并在各种应用中取得了不错的结果。通常,大多数多标记分类算法可以大致分为问题转换法和算法适应法。问题转换法常常将多标记分类模型转换为一系列单标记分类问题。算法适应法往往基于最大后验概率估计对传统的单标记分类模型进行改进,从而可以应用于多标记数据集。然而,上述方法通常忽略了多标记数据集中标记之间的相关性。
[0003]多标记数据集分为完备数据集和不完备数据集。对于完备的多标记数据集,Tsoumakes等在文献(Grigorios Tsoumakas,I本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种带有缺失标记的不完备数据的多标记分类方法,其特征在于,该分类方法包括以下步骤:1)获取含有缺失标记的不完备多标记数据集,并计算数据集中每个样本在每个特征上的邻域半径,得到一个不完备多标记邻域决策系统;2)根据得到的邻域半径,通过样本之间差异性和相似性计算邻域可辨识矩阵和邻域不可辨识矩阵;3)基于邻域可辨识矩阵和邻域不可辨识矩阵,确定样本之间的相似度,由此恢复不完备的信息,并得到所恢复信息的特征权重矩阵;4)根据所述的特征权重矩阵,并结合邻域模糊集和线性回归模型构造新的目标函数;5)采用交替梯度下降策略对新的目标函数进行优化求解,以实现对含有缺失标记的不完备数据的多标记分类。2.根据权利要求1所述的带有缺失标记的不完备数据的多标记分类方法,其特征在于,所述步骤1)中邻域半径的计算公式为:其中,δ

a
(x
i
)为样本x
i
在属性a上的邻域半径,mean(a)是属性a中所有未缺失属性的平均值,f
a
表示属性a中所谓未缺失属性的密度函数,max(f
a
)是密度函数f
a
的最大值,f
a
(x
i
)表示样本x
i
在属性a上所对应的密度函数值。3.根据权利要求1所述的带有缺失标记的不完备数据的多标记分类方法,其特征在于,所述的特征权重矩阵为:其中,Iter代表用于恢复样本x
i
的第j个特征所用的迭代次数,Iter
max
表示最大迭代次数。4.根据权利要求3所述的带有缺失标记的不完备数据的多标记分类方法,其特征在于,所述步骤4)中建立的新的目标函数为:所述步骤4)中建立的新的目标函数为:其中α,β,γ和λ是超参数,X∈R
m
×
n
为样本集,Y∈R
t
×
n
为标记集,B∈R
t
×
t
和W∈R
t
×
m
分别是标记相关性矩阵和特定标记特征矩阵,||W||2和||B||2分别是矩阵W和矩阵B的l

2正则项,Tr(BYL1Y
T
B
T
)是矩阵BYL2Y
T
B
T
的迹,L2=D2‑
S是一个拉普拉矩阵,S是模糊相似矩阵,D2是一个对角矩阵,且有s
ij
表示样本x
i
和样本x
j
之间的模糊相似度,C表示特征权重矩阵,w
i
和w
j

【专利技术属性】
技术研发人员:孙林王天翔孟慧丽张艳齐娜马媛媛窦智
申请(专利权)人:河南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1