一种基于单正标签的多标记预测方法及系统技术方案

技术编号：38195174 阅读：10 留言：0更新日期：2023-07-20 21:16

本发明专利技术公开了一种基于单正标签的多标记预测方法及系统，首先对样本数据进行解析预处理，得到样本特征数据和样本标记数据集；将预处理后的数据划分为训练集和验证集，对于训练集数据，基于标记的缺失性，构建预测模型和标记残差模型，利用样本特征空间和标记空间的相关性，构建样本特征空间相关性矩阵和标记空间相关性矩阵，利用库马尔

全部详细技术资料下载

【技术实现步骤摘要】
一种基于单正标签的多标记预测方法及系统

[0001]本专利技术属于机器学习的分类检测
，主要涉及了一种基于单正标签的多标记预测方法及系统。

技术介绍

[0002]近年来随着机器学习领域的快速发展，多标记预测的学习过程，是学习一个实例到多个标签的映射，从而生成一个预测模型来进行预测。对于一个实例进行多标签预测，相比于单标记学习，很显然事物不止有一个标记，而相比于给样本打上多个标记，这个任务的成本显然高于给样本只打上一个单一的标记，所以，通过单个标记学习得到多标记预测结果显然能节省给样本打标这个昂贵而繁琐的过程，也因此基于单个标记的多标记学习方法显然有很大的应用市场。
[0003]再者，传统多标记学习作为一种重要的学习范式，主要是利用样本之间的相关性这种辅助信息，通过构建样本的相关性模型，从而利用样本间的相关性来进行标记的扩散，包括基于流形学习、基于深度学习主要方法。然而，传统的多标记学习方法往往依赖于大量的训练样本和大量的标记。在单正标记学习的场景中，由于缺乏足够多的样本标记，所以训练的效果往往不好，所以我们利用样本的相关性构建分布模型，将这种相关性反应到标记空间中，对标记空间进行标记扩散，利用获得的标记分布来进行多标记学习。综上，学习多标记问题时，往往需要大量的标签信息，而对样本打标往往是非常昂贵和繁琐的工作，鉴于此，急需一种能解决多标记学习预测过程中标记信息不足问题的方法，从而节省时间节省经济费用。

技术实现思路

[0004]本专利技术正是针对现有技术中标记信息不足的问题，提供一种基于...

【技术保护点】

【技术特征摘要】
1.一种基于单正标签的多标记预测方法，其特征在于，包括如下步骤：S1，数据预处理：对样本数据进行解析处理，得到样本特征数据和样本标记数据集，提取样本特征，对提取的特征进行归一化整理，转换成数值型向量数据；S2,预测模型的训练：将经过步骤S1预处理后的数据划分为训练集和验证集，对于训练集数据，基于标记的缺失性，构建预测模型和标记残差模型，利用样本特征空间和标记空间的相关性，构建样本特征空间相关性矩阵和标记空间相关性矩阵，利用库马尔
‑
约翰逊散度和约束条件构建训练模型,其中,预测模型W通过与样本特征的WX矩阵运算来得到一个合理的标签值来对目标进行分类预测；标记残差模型S通过与样本特征的SX矩阵运算对原样本标记Y进行补充，使得SX+Y的值等于样本的真实标记；S3，模型优化：通过优化训练步骤S2构建的训练模型，在模型交替迭代中优化参数，得到最优多标记预测模型；S4：多标记预测：使用步骤S3优化训练好的最优多标记预测模型，计算测试集样本关于每个类别的描述度，利用阈值划分进行多标记预测。2.如权利要求1所述的一种基于单正标签的多标记预测方法，其特征在于：所述步骤S1中，将提取的特征转换成数值型向量数据的具体方法为：将特征属性A的一个原始值x通过min
‑
max标准化映射成在区间[0,1]中的值x
’
，其公式为：3.如权利要求1所述的一种基于单正标签的多标记预测方法，其特征在于，所述步骤S2具体包括如下步骤：S21，将训练集D
i
＝{X
i
,Y
i
}作为预测模型的输入，其中X
i
为样本的特征空间，Y
i
为样本的标记空间，对于特征空间，利用样本特征之间的相似度构建特征相似度分布矩阵P，其中每一个p
ij
表示样本x
i
和x
j
之间的相似度：其中，x
i
、x
j
、x
k
和x
l
均表达所选相邻的两个样本的特征，σ是所选所有样本的方差；S22：构建样本标记空间Y的相似度分布模型，...

【专利技术属性】
技术研发人员：徐宁，吴永迪，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人