一种基于标记和特征局部相关性的多标记学习方法技术

技术编号：30141549 阅读：129 留言：0更新日期：2021-09-23 15:05

本发明专利技术公开了一种基于标记和特征局部相关性的多标记学习方法，属于机器学习技术领域；本发明专利技术在考虑利用局部标记相关性的同时加入局部特征相关性进行多标记的分类，通过聚类将训练数据分解成若干个数据子集，在每个数据子集中利用标记流形正则化和特征流形正则化获取局部标记相关性和局部特征相关性，分别为每组实例学习一个模型系数，并加入一个新的正则项考虑各个聚类数据子集之间的关系；特征相关性有助于去除冗余的特征，标记相关性和特征相关性并非是全局共享的，因此通过局部标记相关性和局部特征相关性为不同的实例分配不同的标记相关性和特征相关性，从而提升多标记分类模型的分类性能，更好的进行多标记学习任务。务。务。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于标记和特征局部相关性的多标记学习方法

[0001]本专利技术涉及机器学习
，更具体地说，涉及一种基于标记和特征局部相关性的多标记学习方法。

技术介绍

[0002]在传统的监督学习中，一个实例通常只对应一个类别标记，但是在现实的生活中，一个对象往往存在多个语义。例如一篇新闻报道会同时涵盖多个主题，从不同的角度分析可以将其划分为“政治类”、“经济类”、“体育类”等不同的类别；电影“刺杀小说家”同时属于“动作”、“奇幻”和“冒险”等三个电影类别；发表的学术论文中一般包含多个关键词，以此来提高其在检索系统中的检索效率。多标记学习即是用来解决上述标记多个关键词的文本分类问题的。随着越来越多学者的关注，多标记得到了快速的发展，目前多标记学习已经成功运用到了各个研究领域，例如信息检索、图像分类、临床数据分析和生物医学分类等。
[0003]多标记学习是机器学习和数据挖掘中一项很重要的研究课题，多标记学习的目的是训练一个分类模型，利用训练的模型为不可见的实例预测所有相关的标记。目前已经有很多关于解决多标记学习问题的算法，根据多标记学习算法中利用标记相关性的策略可以将现有的方法分为采用一阶、二阶和三阶策略的方法。一阶策略主要假定不同的标记完全独立，在进行多标记的分类时将每个标记分开训练，但却忽视了标记之间的交互作用，如BR算法。二阶策略考虑成对标记之间的相关性，如CLR、LPLC，这些算法利用了两个标记之间的关系，但是一个标记可能同时依赖于多个标记，导致分类不准确。三阶策略考虑随机标记子集之间的交互性或者每个标记和...

【技术保护点】

【技术特征摘要】
1.一种基于标记和特征局部相关性的多标记学习方法，其特征在于，其步骤为：S1、对训练数据进行特征提取，获得数据的特征表示矩阵X，并对训练数据进行类别标记，建立数据的已知类别标记矩阵Y；S2、利用k均值法将特征表示矩阵X聚类分割为g个数据子集{X1，...，X
g
}，并根据特征表示矩阵X的数据子集将已知类别标记矩阵Y分割为与之对应的g个标记子集{Y1，...，Y
g
}，同时得到聚类中心C；S3、计算g个数据子集中每个子集对应的标记相关性矩阵B
m
和特征相关性矩阵S
m
，并计算相应矩阵的拉普拉斯矩阵和根据S2中所得的聚类中心矩阵C计算数据子集之间的相似性；S4、构建将数据子集X
m
映射到类别标记Y
m
的线性模型W
m
，作为分类器；S5、在第m个数据子集中，先后对局部标记相关性和局部特征相关性进行建模；将局部标记相关性控制在输出上，采用标记流行正则化约束标记子集Y
m
中相关的标记对应的模型的输出相似；将局部特征相关性控制在模型系数上，采用特征流行正则化约束数据子集X
m
中相似的特征对应的模型系数相似；S6、利用正则项约束相似的子集所得的模型系数的相似性，利用“相似的分组对应的模型系数相似”添加正则约束，得到最终需要求解的目标模型；S7、经过步骤S1
‑
S6学习得到g个最终分类模型，给定一个测试样本t，求测试样本t和根据步骤S2中所得的g个聚类中心之间的距离，选取前r个距离较近的聚类子集对应的分类模型，将测试样本t带入这r个分类模型，融合并输出测试样本类别的最终结果。2.根据权利要求1所述的一种基于标记和特征局部相关性的多标记学习方法，其特征在于：所述的步骤S1中，数据特征表示矩阵X为一个实数矩阵，其中，n表示样本个数，d表示特征个数，表示实数域；已知类别标记矩阵Y∈{0，1}
n
×
q
，q表示已知的类别标记个数y
ij
表示矩阵Y中的第i行j列的元素，y
ij
＝1则表示第i个样本属于第j个类别标记，否则y
ij
＝0，i为1到n之间的正整数，j为1到q之间的正整数。3.根据权利要求2所述的一种基于标记和特征局部相关性的多标记学习方法，其特征在于：所述的步骤S2中，g表示聚类的数据子集的数量，将训练数据的特征表示矩阵X通过k均值聚类划分为g个数据子集{X1，...，X
g
}，每组对应的特征矩阵n
m
表示第m个数据子集X
m
中样本个数，根据所得的数据子集将Y划分为g个标记子集{Y1，...，Y
g
}，Y
m
是X
m
对应的Y中的标记子集，1≤m≤g；根据对训练数据X的聚类获得聚类中心矩阵心矩阵C中的第i行表示第i个数据子集X
i
的聚类中心向量。4.根据权利要求3所述的一种基于标记和特征局部相关性的多标记学习方法，其特征在于：所述的步骤S3中，设定为第m个数据子集对应的标记相关性矩阵，其中任意第i行第j列元素通过式(1)计算余弦相似度，得到标记相关性矩阵：式(1)中，表示Y
m
中第h行第i列元素值，表示Y
m
中第h行第j列元素值；标记相关性矩阵B
m
对应的拉普拉斯矩阵为：
其中，sum(B
m
)表示分别对B
m
的每一行元素进行相加，返回的一个列向量，diag(sum(B
m
))返回一个维度和sum(B
m
)的行数一样的方阵，并且对角线元素和sum(B
m
)一一对应，其余元素值均为0；设定为第m个数据子集对应的特征相关性矩阵其中任意第i行第j列元素通过(2)式计算余弦相似度得到特征相关性矩阵：式(2)中，表示X
m
中第h行第i列元素值，表示X
m
中第h行第j列元素值；特征相关性矩阵S
m
对应的拉普拉斯矩阵为：其中，sum(S
m
)表示分别对S
m
的每一行元素进行相加，返回的一个列向量，diag(sum(S
m
))返回一个维度和sum(S
m
)的行数一样的方阵，并且对角线元素和sum(S
m
)一一对应，其余元素值均为0；设定为g个数据子集之间的相似性矩阵，其中任意第i行和第j列元素a
ij
表示第i个数据子集和第j个数据子集之间的相似性，利用(3)式计算余弦相似度得到数据子集之间的相似性矩阵：式(3)中，c
ih
表示C中第i行第h列的元素值，c
jh
表示C中第j行第h列的元素值。5.根据权利要求4所述的一种基于标记和特征局部相关性的多标记学习方法，其特征在于：所述...

【专利技术属性】
技术研发人员：程倩倩，黄俊，张辉宜，
申请(专利权)人：安徽工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人