【技术实现步骤摘要】
一种融合局部度量的半监督多标记距离度量学习方法
本专利技术适用于任意拥有少量已标注和大量未标注数据的多标记学习场景,具体涉及一种融合局部度量的半监督多标记距离度量学习方法。
技术介绍
近年来,多标记学习以其对具有丰富语义信息的对象的建模能力得到研究者们的广泛关注并出现大量研究成果。目前多标记学习算法主要从标记空间出发对标记间相关性进行考虑,对特征空间处理较少。实际应用中存在大量未标注数据,而获取对象标注需要大量人力物力,基于此半监督多标记学习被提出,该学习场景下包括少量已标注多标记数据及大量未标注数据,此时如何充分利用已标注信息并高效挖掘未标注数据的结构信息是一大关键挑战。本专利技术从特征空间处理角度出发,基于半监督多标记学习场景,提出一种融合局部度量的距离度量学习方法。
技术实现思路
专利技术目的:本专利技术提供一种融合局部度量的半监督多标记距离度量学习方法,充分利用大量未标注数据进行标注预测,降低了人力标注成本,并从特征空间处理角度出发,通过组合度量形式降低了模型复杂度,促进了多标记学习框架的实际应用。技术方案:本专利技术所述的一种融合局部度量的半监督多标记距离度 ...
【技术保护点】
1.一种融合局部度量的半监督多标记距离度量学习方法,其特征在于,包括以下步骤:(1)对任一多标记应用场景提取训练数据,并对1%~5%的训练数据进行人工标注;(2)对已提取训练样本进行预处理:对于已标注数据,过滤掉标记占有率小于设定阈值的样本,对于未标注数据,通过聚类等操作去除异常点,提高样本质量;(3)基于多标记数据特性,将待学习的距离度量表示为组合距离度量形式;(4)对于已标注样本,定义基于标记对的多标记损失项来充分利用标记间相关信息;对于未标注样本,定义流形正则化项使得度量空间保持样本的结构信息;(5)构建上述多标记损失项和流形正则化项联合优化模型,学得距离度量;(6) ...
【技术特征摘要】
1.一种融合局部度量的半监督多标记距离度量学习方法,其特征在于,包括以下步骤:(1)对任一多标记应用场景提取训练数据,并对1%~5%的训练数据进行人工标注;(2)对已提取训练样本进行预处理:对于已标注数据,过滤掉标记占有率小于设定阈值的样本,对于未标注数据,通过聚类等操作去除异常点,提高样本质量;(3)基于多标记数据特性,将待学习的距离度量表示为组合距离度量形式;(4)对于已标注样本,定义基于标记对的多标记损失项来充分利用标记间相关信息;对于未标注样本,定义流形正则化项使得度量空间保持样本的结构信息;(5)构建上述多标记损失项和流形正则化项联合优化模型,学得距离度量;(6)学得距离度量后,将训练数据映射到距离度量空间,然后使用已有半监督多标记学习算法进行学习,从而得到融合局部度量的半监督多标记分类器;(7)将待预测样本输入上述分类器,得到标注样本;(8)对标注结果进行抽检,若合格,结束;否则,返回步骤(1),继续提取样本进行模型调整更新。2.根据权利要求1中所述的一种融合局部度量的半监督多标记距离度量学习方法,其特征在于,步骤(1)所述的应用场景主要包括图像、文本、视频。3.根据权利要求1中所述的一种融合局部度量的半监督多标记距离度量学习方法,其特征在于,所述步骤(3)将待学习的距离度量表示为组合度量形式:其中vi是待学习的组合参数,bi是具...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。