【技术实现步骤摘要】
基于全局和局部标记关系的偏多标记学习方法
本专利技术涉及计算机应用
,尤其涉及一种基于全局和局部标记关系的偏多标记学习方法。
技术介绍
多标记学习研究的是一个样本关联多个标记的问题,即样本的候选标记集中含有两个及以上的标记。随着传统行业的数字化、互联网技术的发展,产生的数据越来越多,需要标注的数据也在急剧增加。本身标注多标记数据就很费时费力,数据量急剧增大,导致标注者只能粗略的标注数据。因此在实际应用中,人们拿到的标注数据对应的候选标记集中除了相关标记外,还包含了多余的不相关标记,这类标记冗余问题被定义为偏多标记学习问题。如何利用这些不精确标注的数据构建有效的学习模型,是目前机器学习的研究热点。虽然偏多标记学习刚成为最新的研究热点,但已经有一些工作开始尝试处理这类问题。例如,2018年黄圣君等人首次将标记冗余的问题定义为偏多标记学习问题,并提出PML-lc和PML-fp学习算法,通过标记相关性或者特征信息来学习标记置信度,利用标记置信度来度量每个候选标记成为真实标记的概率,并根据标记的排名得到正确的标签。张敏灵 ...
【技术保护点】
1.一种基于全局和局部标记关系的偏多标记学习方法,其特征在于,包括:/n构建特征信息矩阵,对所述特征信息矩阵中的特征数据进行归一化处理,构建不精确标记矩阵;/n利用低秩稀疏表示模型将所述不精确标记矩阵分解为噪声标记矩阵和正确标记系数矩阵,利用所述噪声标记矩阵、正确标记系数矩阵和特征信息矩阵构建所有标记的预测模型;/n基于正确标记系数矩阵、噪声矩阵和预测模型构建偏多标记学习模型,采用块坐标下降法迭代更新方法训练所述偏多标记学习模型,得到训练好的预测模型;/n将未见示例输入到所述训练好的预测模型,根据所述训练好的预测模型输出的预测值确定所述未见示例对应的标记。/n
【技术特征摘要】
1.一种基于全局和局部标记关系的偏多标记学习方法,其特征在于,包括:
构建特征信息矩阵,对所述特征信息矩阵中的特征数据进行归一化处理,构建不精确标记矩阵;
利用低秩稀疏表示模型将所述不精确标记矩阵分解为噪声标记矩阵和正确标记系数矩阵,利用所述噪声标记矩阵、正确标记系数矩阵和特征信息矩阵构建所有标记的预测模型;
基于正确标记系数矩阵、噪声矩阵和预测模型构建偏多标记学习模型,采用块坐标下降法迭代更新方法训练所述偏多标记学习模型,得到训练好的预测模型;
将未见示例输入到所述训练好的预测模型,根据所述训练好的预测模型输出的预测值确定所述未见示例对应的标记。
2.根据权利要求1所述的方法,其特征在于,所述的构建特征信息矩阵和不精确标记矩阵,包括:
构建特征信息矩阵其中m表示样本数目,d表示特征向量的维数,对特征信息矩阵X中的特征数据进行归一化处理,构建不精确标记矩阵Y∈{0,1}m×l,其中m表示样本数目,l表示标记数目,表示对应的已标注示例的标签分配情况,其中yij=1表示示例xi标注了标记yj;否则,yij=0表示示例xi没有标注标记yj。
3.根据权利要求2所述的方法,其特征在于,所述的利用低秩稀疏表示模型将所述不精确标记矩阵分解为噪声标记矩阵和正确标记系数矩阵,利用所述噪声标记矩阵、正确标记系数矩阵和特征信息矩阵构建所有标记的预测模型,包括:
利用低秩稀疏表示模型将观测的不精确标记矩阵Y分解为噪声标记矩阵Q和正确标记矩阵P,Y=P+Q,引入l1范数来约束噪声标记矩阵Q的稀疏性,约束正确标记矩阵P为低秩,利用低秩表示构建正确标记系数矩阵P=YZ,Y表示线性跨越数据空间的字典,将P=YZ代入上面的Y=P+Q,得到Y=YZ+Q;
设偏多标记预测函数f=[f1,,f2,…fl]由l个函数组成,每个函数对应一个标签,每个预测函数为线性函数,定义为fi(X)=Xwi,将所有标签的预测模型W的参数定义为:遵循机器学习规则,引入损失函数来学习得到所述预测模型W。
4.根据权利要求3所述的方法,其特征在于,所述的方法还包括:
所述噪声标记矩阵Q为稀疏矩阵,所述正确标记矩阵P为低秩矩阵,表示为:
利用低秩表示来获取标记之间的全局关系,将秩最小化问题定义如下:
其中Y是一个线性跨越YZ数据空间的字典,是正确标记系数矩阵,其中z:,i表示标签yi与l个标签之间的关系系数向量,zji看作是标记yj对标记yi重构的贡献;
设正确标记系数矩阵Z是线性相关的,引入了一个迹范数来约束正确标记系数矩阵Z是低秩的,通过对低秩的正确标签系数矩阵Z的学习,获得了全局标签相关性,通过解决以下问题来训练所有标签的预测模型W:
s.t.Y=YZ+Q,Z≥0
引入F范数来约束所有标签的预测模型W。
5.根据权利要求4所述的方法,其特征在于,所述的方法还包括:
如果第i个和第j个标签的相关性越强,则wi,:与wj,:更相似;反之亦然,将标签流形正则项定义为:
利用所述标签流形正则项学习标签系数矩阵Z与预测模型W之间的一致性,得到了局部标签相关性,利用局部标记相关性提升预测模型W的性能。
6.根据权...
【专利技术属性】
技术研发人员:冯松鹤,李浥东,孙利娟,金一,
申请(专利权)人:北京交通大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。