当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于伪标签筛选的异构域自适应方法、装置及设备制造方法及图纸

技术编号:32798575 阅读:51 留言:0更新日期:2022-03-23 20:02
本申请提供了一种基于伪标签筛选的异构域自适应方法,该方法利用投影矩阵将文字样本和图像样本投影到公共子空间上生成投影样本,投影样本的边缘分布对齐,保留投影样本中标记投影样本的判别性知识,投影样本与文字样本和图像样本的信息损失尽可能少;基于标记投影样本,利用第c类的文字样本和第c类的图像样本确定第c类的投影样本的均值向量;基于第c类的投影样本的均值向量确定第c类投影样本的均值向量和每个未标记图像投影样本的特征相关系数;基于每个未标记图像投影样本的特征相关系数,在多个未标记投影样本中筛选出具有高特征相关系数的训练子集。本申请提供的方法实现了未标记图像投影样本中的伪标签的筛选,提高了模型的训练精度。型的训练精度。型的训练精度。

【技术实现步骤摘要】
一种基于伪标签筛选的异构域自适应方法、装置及设备


[0001]本申请属于跨域分类
,尤其涉及一种基于伪标签筛选的异构域自适应方法、装置及设备。

技术介绍

[0002]迁移学习是目前机器学习中的一个热点研究领域,迁移学习是将已知领域的知识或者经验迁移到目标领域。迁移学习也叫域自适应学习,即从源域已有的数据中自主提取信息建立模型来预测目标域中未知的数据。域适应学习包括异构域适用学习和同构域适用学习,其中异构域适用学习是域适应学习的重要分支,在异构域适用学习中由于源域和目标域的特征空间不同,域间的知识迁移更具有挑战性,其中,如何实现跨域文本图像识别,是目前迁移学习的研究热点。
[0003]在相关技术中,可以采用对称变化的异构域适应方法将文字样本和图像样本分别投影到一个公共子空间中,使来自不同特征空间的样本可以关联到同一个特征空间上,但是该种方式中由于文字样本中的标记数量远远多于图像样本中的标记数量,学习到的图像特征很容易偏向于文字样本的判别性。为了避免该种情况发生,一般可以使用分类器来预测图像样本的伪标签来扩大图像样本的数量。由于伪标签本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于伪标签筛选的异构域自适应方法,其特征在于,所述方法包括:利用投影矩阵将文字样本和图像样本投影到公共子空间上,生成投影样本,所述公共子空间上的投影样本的边缘分布对齐,保留所述投影样本中标记投影样本的判别性知识,所述投影样本与所述文字样本和图像样本的损失小于第一阈值,所述投影样本包括:未标记投影样本和标记投影样本;基于所述标记投影样本,利用第c类的文字投影样本和第c类的图像投影样本确定第c类的投影样本的均值向量,c为整数;基于所述第c类的投影样本的均值向量,确定每个未标记投影图像样本与所述第c类的投影样本的均值向量的特征相关系数;基于所述特征相关系数,在多个未标记投影图像样本中筛选训练子集,所述训练子集用于机器学习中模型的训练。2.根据权利要求1所述的方法,其特征在于,所述基于所述标记投影样本,利用第c类的文字投影样本和第c类的图像投影样本确定第c类的投影样本的均值向量,包括:利用如下计算公式计算所述第c类的投影样本的均值向量:其中,P表示投影矩阵,表示第i个属于第c类的文字投影样本,表示第i个属于第c类的图像投影样本,l表示该投影样本是被标记的;表示属于第c类文字投影样本的总数,表示属于第c类图像投影样本的总数,Z
C
表示第c类投影样本的均值向量。3.根据权利要求1所述的方法,其特征在于,所述基于所述第c类的投影样本的均值向量,确定每个未标记图像投影样本与所述第c类的投影样本的均值向量的特征相关系数,包括:利用如下计算公式,计算每个未标记图像投影样本与第c类的投影样本的均值向量的特征相关系数:其中,表示第c类均值向量Z
C
和第j个未标记的图像投影样本的相关系数,u值表示该图像投影样本是未标记的,表示第c类均值向量Z
...

【专利技术属性】
技术研发人员:陆玉武林德伟
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1