特征提取模型的训练方法、特征提取方法及装置制造方法及图纸

技术编号：37604465 阅读：17 留言：0更新日期：2023-05-18 11:56

本申请公开了一种特征提取模型的训练方法、特征提取方法及装置，属于计算机领域。本申请提供的训练方法包括：获取第一阶段训练样本；通过第一阶段训练样本对待训练的特征提取模型进行对比学习训练，得到第一目标特征提取模型；获取第二阶段训练样本；通过第二阶段训练样本对第一目标特征提取模型进行对比学习训练，得到第二目标特征提取模型；其中，第一阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的一者，第二阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的另一者。本中的另一者。本中的另一者。

全部详细技术资料下载

【技术实现步骤摘要】
特征提取模型的训练方法、特征提取方法及装置

[0001]本申请属于计算机领域，具体涉及一种特征提取模型的训练方法、特征提取方法及装置。

技术介绍

[0002]当前，在对诸如图像或文本之类的对象进行处理的很多情形(例如，人脸识别或文本
‑
语音转换)下，往往会先提取对象的特征信息。
[0003]相关技术在提取对象的特征信息的过程中，往往会侧重提取对象某一方面的信息(例如，对象的整体信息)，而忽略对象另一方面的信息(例如，对象的细节特征信息)，进而，这种特征信息提取方式的应用范围较为受限。

技术实现思路

[0004]本申请实施例提供一种特征提取模型的训练方法、特征提取方法及装置，以解决相关技术中的特征信息提取方式应用范围较为受限的问题。
[0005]第一方面，本申请实施例提供了一种特征提取模型的训练方法，该方法包括：
[0006]获取第一阶段训练样本；
[0007]通过所述第一阶段训练样本对待训练的特征提取模型进行对比学习训练，得到第一目标特征提取模型；
[0008]获取第二阶段训练样本；
[0009]通过所述第二阶段训练样本对所述第一目标特征提取模型进行对比学习训练，得到第二目标特征提取模型；
[0010]其中，所述第一阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的一者，所述第二阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的另一者；
[0011]其中，所述用...

【技术保护点】

【技术特征摘要】
1.一种特征提取模型的训练方法，其特征在于，包括：获取第一阶段训练样本；通过所述第一阶段训练样本对待训练的特征提取模型进行对比学习训练，得到第一目标特征提取模型；获取第二阶段训练样本；通过所述第二阶段训练样本对所述第一目标特征提取模型进行对比学习训练，得到第二目标特征提取模型；其中，所述第一阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的一者，所述第二阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的另一者；其中，所述用于进行域间对比学习的训练样本包括：第一锚点样本、与所述第一锚点样本对应的域内正样本和与所述第一锚点样本对应的域外负样本；所述用于进行域内对比学习的训练样本包括：第二锚点样本、与所述第二锚点样本对应的域内正样本、与所述第二锚点样本对应的域内负样本。2.根据权利要求1所述的训练方法，其特征在于，在所述第二阶段训练样本为用于进行域内对比学习的训练样本的情况下，所述用于进行域内对比学习的训练样本还包括：与所述第二锚点样本对应的域外负样本；或者，在所述第二阶段训练样本为用于进行域间对比学习的训练样本的情况下，所述用于进行域间对比学习的训练样本还包括：与所述第一锚点样本对应的域内负样本。3.根据权利要求2所述的方法，其特征在于，在所述第二阶段训练样本为用于进行域内对比学习的训练样本的情况下，与所述第二锚点样本对应的域内负样本的数量大于或者等于与所述第二锚点样本对应的域外负样本的数量；或者，在所述第二阶段训练样本为用于进行域间对比学习的训练样本的情况下，与所述第一锚点样本对应的域外负样本的数量大于或者等于与所述第一锚点样本对应的域内负样本的数量。4.根据权利要求1
‑
3任一项所述的训练方法，其特征在于，所述第一阶段训练样本为用于进行域间对比学习的训练样本，所述第二阶段训练样本为用于进行域内对比学习的训练样本；所述获取第二阶段训练样本包括：从第二阶段数据集中获取第二锚点样本；通过正例数据增强方式对所述第二锚点样本进行数据增强处理，得到与所述第二锚点样本对应的域内正样本；通过负例数据增强方式对所述第二锚点样本进行数据增强处理，得到与所述第二锚点样本对应的域内负样本；将所述第二阶段数据集中除所述第二锚点样本之外的样本，作为与所述第二锚点样本对应的域外负样本。5.根据权利要求4所述的方法，其特征在于，所述第二阶段训练样本中的所述第二锚点样本为文本形式的样本，所述负例数据增强方式包括反义词替换；
所述通过负例数据增强方式对第二锚点样本进行数据增强处理，得到与第二锚点样本对应的域内负样本，包括：将文本形式的所述第二锚点样本进行词组分拆处理，得到P个独立词组；通过将所述P个独立词组中的Q个独立词组替换成对应的反义词，得到与第二锚点样本对应的域内负样本；其中，Q与P为正整数，Q与P之商位于第一阈值与第二阈值之间，第一阈值大于0，第二阈值小于1。6.根据权利要求4所述的方法，其特征在于，所述第二阶段训练样本中的所述第二锚点样本为图像形式的样本，所述负例数据增强方式包括颜色调整、内容替换和尺寸调整中的至少一种；所述通过负例数据增强方式对第二锚点样本进行数据增强处理，得到与第二锚点样本对应的域内负样本，包括：确定图像形式的所述第二锚点样本中的目标对象；在所述负例数据增强方式包括颜色调整的情况下，通过将所述目标对象的颜色调整为指定颜色，得到与第二锚点样本对应的域内负样本；在所述负例数据增强方式包括内容替换的情况下，通过将所述目标对象替换为指定对象，得到与第二锚点样本对应的域内负样本；在...

【专利技术属性】
技术研发人员：吕乐宾，蒋宁，肖冰，李宽，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人