一种基于交互建模的多标记距离度量学习方法技术

技术编号：22884796 阅读：26 留言：0更新日期：2019-12-21 07:36

本发明专利技术公开了一种基于交互建模的多标记距离度量学习方法，对任一多标记应用场景提取训练数据，并对其进行多标记标注；对已提取训练样本进行预处理，提高样本质量；将待学习的距离度量矩阵表示为组合距离度量形式；定义基于特征与标记协同计算的多标记语义相似度，并构造三元组约束集；结合组合距离度量和三元组约束集，构造多标记距离度量学习模型，对其优化求解；学得距离度量后，将训练数据映射到距离度量空间，然后使用已有多标记学习算法进行学习，得到基于距离度量学习的多标记分类器；将待预测样本输入上述分类器，得到标注样本。本发明专利技术可大大降低多标记学习系统的时间复杂度，增加了多标记学习框架的实用性。

A learning method of distance measurement based on interactive modeling

全部详细技术资料下载

【技术实现步骤摘要】
一种基于交互建模的多标记距离度量学习方法
本专利技术涉及一种基于交互建模的多标记距离度量学习方法，具体涉及一种基于特征空间与标记空间交互建模的多标记距离度量学习方法，适用于任意多标记学习场景，属于机器学习

技术介绍
近年来，多标记学习得到研究者们的广泛关注并出现大量研究成果。但是，由于标记空间的组合性，多标记学习具有很高的复杂度而难以应用于实际场景。现有多标记学习方法多从标记空间出发对标记间的相关性进行建模，对特征空间处理较少。分析多标记数据，特征空间存在冗余，因此，如何构造一个合适的多标记距离度量表示可以大幅度提升多标记系统的学习性能，同时距离度量与近邻策略的结合降低了学习系统的复杂度，从而推动多标记学习的实际应用。基于上述问题，有必要对本专利技术的学习方法进行更加深入的研究。
技术实现思路
专利技术目的：为解决现有技术的不足，本专利技术的目的在于从特征空间处理角度出发，考虑到标记间相关性及特征空间与标记空间的结构化交互，提出一种基于交互建模的多标记距离度量学习方法。本专利技术采用如下技术方案：本专利技术所述的一种基于交互建模的多标记距离度量学习方法，包括以下步骤：(1)对任一多标记应用场景提取训练数据，并对其进行多标记标注；(2)对已提取训练样本进行预处理，过滤标记占有率小于设定阈值的样本，提高样本质量；(3)基于马氏距离度量学习框架，考虑到多标记数据中特征空间与标记空间的结构化交互，将待学习的距离度量矩阵表示为组合距离度量形式；(4)...

【技术保护点】
1.一种基于交互建模的多标记距离度量学习方法，其特征在于，包括以下步骤：/n(1)对任一多标记应用场景提取训练数据，并对其进行多标记标注；/n(2)对已提取训练样本进行预处理，过滤标记占有率小于设定阈值的样本，提高样本质量；/n(3)基于马氏距离度量学习框架，考虑到多标记数据中特征空间与标记空间的结构化交互，将待学习的距离度量矩阵表示为组合距离度量形式；/n(4)定义基于特征与标记协同计算的多标记语义相似度，并构造三元组约束集；/n(5)综合步骤(3)和(4)，得到多标记距离度量学习模型，对其优化求解；/n(6)学得距离度量后，将训练数据映射到距离度量空间，然后使用已有多标记学习算法进行学习，得到基于距离度量学习的多标记分类器；/n(7)将待预测样本输入上述多标记分类器，得到标注样本；/n(8)对标注结果进行抽检，若合格，结束；否则，返回步骤(1)，继续提取样本进行模型调整更新。/n

【技术特征摘要】
1.一种基于交互建模的多标记距离度量学习方法，其特征在于，包括以下步骤：
(1)对任一多标记应用场景提取训练数据，并对其进行多标记标注；
(2)对已提取训练样本进行预处理，过滤标记占有率小于设定阈值的样本，提高样本质量；
(3)基于马氏距离度量学习框架，考虑到多标记数据中特征空间与标记空间的结构化交互，将待学习的距离度量矩阵表示为组合距离度量形式；
(4)定义基于特征与标记协同计算的多标记语义相似度，并构造三元组约束集；
(5)综合步骤(3)和(4)，得到多标记距离度量学习模型，对其优化求解；
(6)学得距离度量后，将训练数据映射到距离度量空间，然后使用已有多标记学习算法进行学习，得到基于距离度量学习的多标记分类器；
(7)将待预测样本输入上述多标记分类器，得到标注样本；
(8)对标注结果进行抽检，若合格，结束；否则，返回步骤(1)，继续提取样本进行模型调整更新。

2.根据权利要求1所述的一种基于交互建模的多标记距离度量学习方法，其特征在于，步骤(1)中所述的应用场景包括图像、文本、视频场景。

3.根据权利要求1所述的一种基于交互建模的多标记距离度量学习方法，其特征在于，步骤(3)中将待学习的距离度量表示为如下组合度量形式：

其中，bl∈Rd是组合基向量，wl≥0是待学习的非负组合系数(权重)，l是求和符号的区间下标，从1变化到K。K是求和符号的上界，是自定的值，本方法为每个标记构造一个组成基向量。T表示矩阵的转置。

4.根据权利要求1所述的一...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：南京智谷人工智能研究院有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人