【技术实现步骤摘要】
联合矩阵分解和双向映射网络的多标签分类方法及系统
[0001]本专利技术属于计算机应用
,尤其涉及一种联合矩阵分解和双向映射网络的多标签分类方法及系统。
技术介绍
[0002]目前,多标签分类研究旨在为不可见实例预测多个可能的标签,即一个实例样本可能同时与多个标签信息匹配。随着互联网技术的发展,现代社会进入了大数据时代。因此,每时每刻都会产生大规模的数据,并且数量庞大,需要进行标记的数据也随之增加。有效的挖掘出数量庞大的数据中有价值的信息在于如何将这些做出最合适的分类,即对大规模数据进行分类。传统的单标签分类是实例与标签之间是一一对应的,多标签分类则是实例和标签之间的“一对多”的关系,这样就给多标签分类带来了巨大的挑战。
[0003]近年来,有关多标签分类方法的研究成为了机器学习的热点研究方向。BR提出一种二进制相关性算法[Learning multi
‑
label scene classification]将多标签学习问题转化为多个独立的单标签分类问题,进而达到多标签分类的结果。ML
‑
KNN[A lazy learning approach to multi
‑
label learning]提出一种改进的KNN多标签分类方法,首先在训练集中找到测试样本的K近邻,基于邻域样本的统计信息,如属于相同标签的邻居的个数,用最大后验概率原则(MAP)预测测试样本的类别标签集。这些算法大都是针对多标签分类设计的,但大多数多标签数据集具有维数高和容量大的特点。 ...
【技术保护点】
【技术特征摘要】
1.一种联合矩阵分解和双向映射网络的多标签分类方法,其特征在于,所述联合矩阵分解和双向映射网络的多标签分类方法包括以下步骤:步骤一,构建实例特征矩阵和类别标签矩阵,对特征矩阵和标签矩阵进行统一的归一化处理,构建标准的多标签数据集;步骤二,利用矩阵分解方法,将类别标签矩阵分解成语义标签矩阵和潜在标签关联矩阵;步骤三,基于语义标签矩阵和潜在标签关联矩阵以及模型系数矩阵、标签相关矩阵构建多标签分类模型;步骤四,采用交替优化方法分别对模型系数矩阵以及语义标签矩阵和潜在标签关联矩阵进行优化求解,得到训练好的模型,并且预测模型为步骤五,将不可见标签的实例作为测试集作为预测模型的输入,输入模型预测的标签矩阵;步骤六,将预测标签矩阵和真实标签矩阵在五个评价指标下进行对比。2.如权利要求1所述的联合矩阵分解和双向映射网络的多标签分类方法,其特征在于,所述步骤一中的构建实例特征矩阵和类别标签矩阵,对特征矩阵和标签矩阵进行统一的归一化处理,构建标准的多标签数据集包括:构建实例特征矩阵其中n表示样本数,d表示实例特征个数;队实例特征矩阵进行归一化处理;构建标签矩阵Y∈{0,1}
n
×
l
,其中n表示样本数,l表示标签个数;且y
ij
=0表示实例x
i
不包含标签y
j
;否则y
ij
=1表示实例x
i
包含标签y
j
。3.如权利要求1所述的联合矩阵分解和双向映射网络的多标签分类方法,其特征在于,所述步骤二中的利用矩阵分解方法,将类别标签矩阵分解成语义标签矩阵和潜在标签关联矩阵包括:利用矩阵分解方法将标签矩阵分解为语义标签矩阵U≥0和潜在标签关联矩阵V≥0,Y=UV;利用最小化平方损失函数来进行矩阵语义标签矩阵U和潜在标签关联矩阵V的优化,4.如权利要求1所述的联合矩阵分解和双向映射网络的多标签分类方法,其特征在于,所述步骤三中的基于语义标签矩阵和潜在标签关联矩阵以及模型系数矩阵、标签相关矩阵构建多标签分类模型包括:引入模型系数矩阵W,构建双向映射网络其中第一项为前向映射损失项,第二项为反向重构损失项;经过最小化双向映射网络实现正向损失和反向重构损失的互补,并引入标签相关性;采用余弦相似度来计算标签相关矩阵R,并在模型中添加tr(V
T
RV)正则项来考虑标签相关性;当两个标签向量很相似时,对应的实例特征往往也会相似;综合所述损失函数的建立,最终的多标签分类模型为:
式中,第五项用于解决模型过拟合的问题,并且λ1、λ2、λ3和λ4为权衡系数,分别控制前向映射、反向重构、标签相关性以及防止过拟合的相对重要性。5.如权利要求1所述的联合矩阵分解和双向映射网络的多标签分类方法,其特征在于,所述步骤四中的采用交替优化方法分别对模型系数矩阵以及语义标签矩阵和潜在标签关联矩阵进行优化求解,得到训练好的模型,并且预测模型为包括:(1)模型初始化过程U=rand(n,k);V=rand(k,l);W=rand(d,k);根据余弦相似度求R;权衡参数:λ1、λ2、λ3和λ4;(2)采用交替优化技术对步骤三建立的模型进行优化求解;1)固定W和V,更新U:当W和V固定时,更新U的优化问题表示为:对U求偏导得到:UVV
T
‑
YV
T
+λ1(U
‑
XW)+λ2(UW
T
W
‑
XW)=0;U的迭代过程写为:其中,表示哈达玛除法;2)固定W和U,更新V:当W和U固定时,更新V的优化问题表示为:对V求偏导得到:U
T
UV
‑
U
T
Y+λ3RV=0;V的迭代过程写为:3)固定V和U,更新W:当V和U固定时,更新W的优化问题表示为:对W求偏导得到典型的西尔维斯特方程:λ1(X
T
XW
...
【专利技术属性】
技术研发人员:孙冬,檀怡,樊进,高清维,卢一相,竺德,
申请(专利权)人:安徽大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。