当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于单正标签的多标记预测方法及系统技术方案

技术编号:38195174 阅读:10 留言:0更新日期:2023-07-20 21:16
本发明专利技术公开了一种基于单正标签的多标记预测方法及系统,首先对样本数据进行解析预处理,得到样本特征数据和样本标记数据集;将预处理后的数据划分为训练集和验证集,对于训练集数据,基于标记的缺失性,构建预测模型和标记残差模型,利用样本特征空间和标记空间的相关性,构建样本特征空间相关性矩阵和标记空间相关性矩阵,利用库马尔

【技术实现步骤摘要】
一种基于单正标签的多标记预测方法及系统


[0001]本专利技术属于机器学习的分类检测
,主要涉及了一种基于单正标签的多标记预测方法及系统。

技术介绍

[0002]近年来随着机器学习领域的快速发展,多标记预测的学习过程,是学习一个实例到多个标签的映射,从而生成一个预测模型来进行预测。对于一个实例进行多标签预测,相比于单标记学习,很显然事物不止有一个标记,而相比于给样本打上多个标记,这个任务的成本显然高于给样本只打上一个单一的标记,所以,通过单个标记学习得到多标记预测结果显然能节省给样本打标这个昂贵而繁琐的过程,也因此基于单个标记的多标记学习方法显然有很大的应用市场。
[0003]再者,传统多标记学习作为一种重要的学习范式,主要是利用样本之间的相关性这种辅助信息,通过构建样本的相关性模型,从而利用样本间的相关性来进行标记的扩散,包括基于流形学习、基于深度学习主要方法。然而,传统的多标记学习方法往往依赖于大量的训练样本和大量的标记。在单正标记学习的场景中,由于缺乏足够多的样本标记,所以训练的效果往往不好,所以我们利用样本的相关性构建分布模型,将这种相关性反应到标记空间中,对标记空间进行标记扩散,利用获得的标记分布来进行多标记学习。综上,学习多标记问题时,往往需要大量的标签信息,而对样本打标往往是非常昂贵和繁琐的工作,鉴于此,急需一种能解决多标记学习预测过程中标记信息不足问题的方法,从而节省时间节省经济费用。

技术实现思路

[0004]本专利技术正是针对现有技术中标记信息不足的问题,提供一种基于单正标签的多标记预测方法及系统,首先对样本数据进行解析预处理,得到样本特征数据和样本标记数据集;将预处理后的数据划分为训练集和验证集,对于训练集数据,基于标记的缺失性,构建预测模型和标记残差模型,利用样本特征空间和标记空间的相关性,构建样本特征空间相关性矩阵和标记空间相关性矩阵,利用库马尔

约翰逊散度和约束条件构建训练模型;再在模型交替迭代中优化参数,得到最优多标记预测模型;最后计算测试集样本关于每个类别的描述度,利用阈值划分进行多标记预测。
[0005]为了实现上述目的,本专利技术采取的技术方案是:一种基于单正标签的多标记学习方法,包括如下步骤:
[0006]S1,数据预处理:对样本数据进行解析处理,得到样本特征数据和样本标记数据集,提取样本特征,对提取的特征进行归一化整理,转换成数值型向量数据;
[0007]S2,预测模型的训练:将经过步骤S1预处理后的数据划分为训练集和验证集,对于训练集数据,基于标记的缺失性,构建预测模型和标记残差模型,利用样本特征空间和标记空间的相关性,构建样本特征空间相关性矩阵和标记空间相关性矩阵,利用库马尔

约翰逊
散度和约束条件构建训练模型;其中,
[0008]预测模型W通过与样本特征的WX矩阵运算来得到一个合理的标签值来对目标进行分类预测;
[0009]标记残差模型S通过与样本特征的SX矩阵运算对原样本标记Y进行补充,使得SX+Y的值等于样本的真实标记;
[0010]S3,模型优化:通过优化训练步骤S2构建的训练模型,在模型交替迭代中优化参数,得到最优多标记预测模型;
[0011]S4:多标记预测:使用步骤S3优化训练好的最优多标记预测模型,计算测试集样本关于每个类别的描述度,利用阈值划分进行多标记预测。
[0012]作为本专利技术的一种改进,所述步骤S1中,将提取的特征转换成数值型向量数据的具体方法为:将特征属性A的一个原始值x通过min

max标准化映射成在区间[0,1]中的值x

,其公式为:
[0013][0014]作为本专利技术的另一种改进,所述步骤S2具体包括如下步骤:
[0015]S21,将训练集D
i
={X
i
,Y
i
}作为预测模型的输入,其中X
i
为样本的特征空间,Y
i
为样本的标记空间,对于特征空间,利用样本特征之间的相似度构建特征相似度分布矩阵P,其中每一个p
ij
表示样本x
i
和x
j
之间的相似度:
[0016][0017]其中,x
i
、x
j
、x
k
和x
l
均表达所选相邻的两个样本的特征,σ是所选所有样本的方差;
[0018]和是所选相邻的两个样本的特征,是所选所有样本的方差S22:构建样本标记空间Y的相似度分布模型,用样本的标记与标记之间的关系构建相似度模型Q,对于其中每一个q
ij
表示标记y
i
和y
j
之间的相似度:
[0019][0020]其中,y
i
、y
j
、y
k
和y
l
均表达所选的两个相邻样本的标记的值和也是所选的两个相邻样本的标记
[0021]S23:基于标记分布模型和样本相似度分布模型之间的库马尔

约翰逊散度,通过最小化C预测得到合理的标记分布L,库马尔

约翰逊散度C的值为:
[0022][0023]S24:通过步骤S23得到合理标记分布L后构建训练模型来训练预测模型W,基于初始标记矩阵Y与预测矩阵之间的差异性,构建标记残差模型矩阵S来补充拟合,并训练预测模型W,且基于残差矩阵S的稀疏性,利用L1范数来约束。
[0024]作为本专利技术的另一种改进,所述步骤S24中预测模型W的目标函数为:
[0025][0026]其中,W是预测模型,S是标记残差模型,Y是初始的单正标记矩阵,L通过步骤S23得到的标记分布,α,β,γ为模型训练的超参数。
[0027]作为本专利技术的又一种改进,所述步骤S3进一步包括:
[0028]S31:控制模型中的标记分布L和残差矩阵S保持不变,利用梯度下降迭代优化预测模型W:
[0029][0030]S32:优化完预测模型W后,保持模型中的预测模型W和标记分布L不变,利用ADMM的方法优化标记残差模型S:
[0031][0032]S33:优化完标记残差模型S后,保持模型中的W和残差矩阵S不变,利用模拟退火的方法来优化标记分布L:
[0033][0034]S34:重复步骤S31

S33,直到目标函数Ω最小化,得到最优多标记预测模型W。
[0035]作为本专利技术的进一步改进,述步骤S4中,测试集样本X
te
作为最优多标记预测模型W的输入,输出标记分布WX
te
,通过二值化得到标记分布预测,当分布中值超过阈值的,认为预测结果属于该类别,否则不属于。
[0036]为了实现上述目的,本专利技术还采取的技术方案是:一种基于单正标签的多标记学习系统,包括计算机程序,所述计算机程序被处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单正标签的多标记预测方法,其特征在于,包括如下步骤:S1,数据预处理:对样本数据进行解析处理,得到样本特征数据和样本标记数据集,提取样本特征,对提取的特征进行归一化整理,转换成数值型向量数据;S2,预测模型的训练:将经过步骤S1预处理后的数据划分为训练集和验证集,对于训练集数据,基于标记的缺失性,构建预测模型和标记残差模型,利用样本特征空间和标记空间的相关性,构建样本特征空间相关性矩阵和标记空间相关性矩阵,利用库马尔

约翰逊散度和约束条件构建训练模型,其中,预测模型W通过与样本特征的WX矩阵运算来得到一个合理的标签值来对目标进行分类预测;标记残差模型S通过与样本特征的SX矩阵运算对原样本标记Y进行补充,使得SX+Y的值等于样本的真实标记;S3,模型优化:通过优化训练步骤S2构建的训练模型,在模型交替迭代中优化参数,得到最优多标记预测模型;S4:多标记预测:使用步骤S3优化训练好的最优多标记预测模型,计算测试集样本关于每个类别的描述度,利用阈值划分进行多标记预测。2.如权利要求1所述的一种基于单正标签的多标记预测方法,其特征在于:所述步骤S1中,将提取的特征转换成数值型向量数据的具体方法为:将特征属性A的一个原始值x通过min

max标准化映射成在区间[0,1]中的值x

,其公式为:3.如权利要求1所述的一种基于单正标签的多标记预测方法,其特征在于,所述步骤S2具体包括如下步骤:S21,将训练集D
i
={X
i
,Y
i
}作为预测模型的输入,其中X
i
为样本的特征空间,Y
i
为样本的标记空间,对于特征空间,利用样本特征之间的相似度构建特征相似度分布矩阵P,其中每一个p
ij
表示样本x
i
和x
j
之间的相似度:其中,x
i
、x
j
、x
k
和x
l
均表达所选相邻的两个样本的特征,σ是所选所有样本的方差;S22:构建样本标记空间Y的相似度分布模型,...

【专利技术属性】
技术研发人员:徐宁吴永迪
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1