特征提取模型的训练方法、特征提取方法及装置制造方法及图纸

技术编号:37604465 阅读:17 留言:0更新日期:2023-05-18 11:56
本申请公开了一种特征提取模型的训练方法、特征提取方法及装置,属于计算机领域。本申请提供的训练方法包括:获取第一阶段训练样本;通过第一阶段训练样本对待训练的特征提取模型进行对比学习训练,得到第一目标特征提取模型;获取第二阶段训练样本;通过第二阶段训练样本对第一目标特征提取模型进行对比学习训练,得到第二目标特征提取模型;其中,第一阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的一者,第二阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的另一者。本中的另一者。本中的另一者。

【技术实现步骤摘要】
特征提取模型的训练方法、特征提取方法及装置


[0001]本申请属于计算机领域,具体涉及一种特征提取模型的训练方法、特征提取方法及装置。

技术介绍

[0002]当前,在对诸如图像或文本之类的对象进行处理的很多情形(例如,人脸识别或文本

语音转换)下,往往会先提取对象的特征信息。
[0003]相关技术在提取对象的特征信息的过程中,往往会侧重提取对象某一方面的信息(例如,对象的整体信息),而忽略对象另一方面的信息(例如,对象的细节特征信息),进而,这种特征信息提取方式的应用范围较为受限。

技术实现思路

[0004]本申请实施例提供一种特征提取模型的训练方法、特征提取方法及装置,以解决相关技术中的特征信息提取方式应用范围较为受限的问题。
[0005]第一方面,本申请实施例提供了一种特征提取模型的训练方法,该方法包括:
[0006]获取第一阶段训练样本;
[0007]通过所述第一阶段训练样本对待训练的特征提取模型进行对比学习训练,得到第一目标特征提取模型;
[0008]获取第二阶段训练样本;
[0009]通过所述第二阶段训练样本对所述第一目标特征提取模型进行对比学习训练,得到第二目标特征提取模型;
[0010]其中,所述第一阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的一者,所述第二阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的另一者;
[0011]其中,所述用于进行域间对比学习的训练样本包括:第一锚点样本、与所述第一锚点样本对应的域内正样本和与所述第一锚点样本对应的域外负样本;所述用于进行域内对比学习的训练样本包括:第二锚点样本、与所述第二锚点样本对应的域内正样本、与所述第二锚点样本对应的域内负样本。
[0012]第二方面,本申请实施例提供了一种特征提取方法,该方法包括:
[0013]获取目标数据;
[0014]将所述目标数据输入至所述第二目标特征提取模型进行特征提取处理,得到与所述目标数据对应的特征信息;
[0015]其中,所述第二目标特征提取模型是根据第一方面提供的训练方法进行训练得到的。
[0016]第三方面,本申请实施例提供了一种特征提取装置,包括获取模块和处理模块;
[0017]所述获取模块,用于获取目标数据;
[0018]所述处理模块,用于将所述目标数据输入至第二目标特征提取模型进行特征提取处理,得到与所述目标数据对应的特征信息;
[0019]其中,所述第二目标特征提取模型是根据第一方面提供的训练方法而得到的。
[0020]第四方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面或第二方面所述的方法的步骤。
[0021]第五方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面或第二方面所述的方法的步骤。
[0022]在本申请实施例中,通过获取第一阶段训练样本;通过所述第一阶段训练样本对待训练的特征提取模型进行对比学习训练,得到第一目标特征提取模型;获取第二阶段训练样本;通过所述第二阶段训练样本对所述第一目标特征提取模型进行对比学习训练,得到第二目标特征提取模型;其中,所述第一阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的一者,所述第二阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的另一者;其中,所述用于进行域间对比学习的训练样本包括:第一锚点样本、与所述第一锚点样本对应的域内正样本和与所述第一锚点样本对应的域外负样本;所述用于进行域内对比学习的训练样本包括:第二锚点样本、与所述第二锚点样本对应的域内正样本、与所述第二锚点样本对应的域内负样本。这样,通过第一阶段训练样本和第二阶段训练样本进行两个阶段的模型训练,一个阶段侧重于进行域间对比学习,另一个阶段侧重于进行域内对比学习,最终得到的第二目标特征提取模型不仅具有区分数据的整体特征的能力,而且还具有进一步区分数据的细节特征的能力,大大扩展了模型的应用范围,从而能够解决相关技术中的特征信息提取方式应用范围较为受限的问题。
附图说明
[0023]图1为本申请实施例提供的一种特征提取模型的训练过程的示意图;
[0024]图2为本申请实施例提供的一种特征提取模型的训练过程的示意图;
[0025]图3为本申请实施例提供的一种特征提取模型的训练方法的示意性流程图;
[0026]图4

1为本申请实施例提供的一种特征提取模型的训练方法的示意性流程图;
[0027]图4

2为本申请实施例提供的一种第二目标特征提取模型的训练方法的示意性流程图;
[0028]图4

3为本申请实施例提供的一种第二目标特征提取模型的训练过程的示意图;
[0029]图5为本申请实施例提供的一种特征提取方法的示意性流程图;
[0030]图6为本申请实施例提供的一种特征提取模型的训练装置的示意性结构图;
[0031]图7为本申请实施例提供的一种电子设备的示意性结构图;
[0032]图8为实现本申请实施例的一种电子设备的硬件结构示意图。
具体实施方式
[0033]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描
述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0034]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0035]在提取特征信息的过程中,可以采用特征提取模型提取输入数据(例如文本或者图像等)的特征。由于特征提取模型的好坏直接关系到提取的特征信息的质量,因而对特征提取模型进行训练,保证特征提取模型在对输入数据进行特征提取处理时,生成的特征信息能够准确反映输入数据的尽可能多的特征是十分重要的。相关技术中,在特征提取模型的训练过程中,一般将指定样本作为锚点样本,将指定样本进行增强处理后生成的域内正样本作为正样本,将与指定样本不同域的样本作为负样本,对特征提取模型进行对比学习训练,进而使特征提取模型具有区分数据的整体特征的能力,从而使得由特征提取模型输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征提取模型的训练方法,其特征在于,包括:获取第一阶段训练样本;通过所述第一阶段训练样本对待训练的特征提取模型进行对比学习训练,得到第一目标特征提取模型;获取第二阶段训练样本;通过所述第二阶段训练样本对所述第一目标特征提取模型进行对比学习训练,得到第二目标特征提取模型;其中,所述第一阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的一者,所述第二阶段训练样本为用于进行域间对比学习的训练样本和用于进行域内对比学习的训练样本中的另一者;其中,所述用于进行域间对比学习的训练样本包括:第一锚点样本、与所述第一锚点样本对应的域内正样本和与所述第一锚点样本对应的域外负样本;所述用于进行域内对比学习的训练样本包括:第二锚点样本、与所述第二锚点样本对应的域内正样本、与所述第二锚点样本对应的域内负样本。2.根据权利要求1所述的训练方法,其特征在于,在所述第二阶段训练样本为用于进行域内对比学习的训练样本的情况下,所述用于进行域内对比学习的训练样本还包括:与所述第二锚点样本对应的域外负样本;或者,在所述第二阶段训练样本为用于进行域间对比学习的训练样本的情况下,所述用于进行域间对比学习的训练样本还包括:与所述第一锚点样本对应的域内负样本。3.根据权利要求2所述的方法,其特征在于,在所述第二阶段训练样本为用于进行域内对比学习的训练样本的情况下,与所述第二锚点样本对应的域内负样本的数量大于或者等于与所述第二锚点样本对应的域外负样本的数量;或者,在所述第二阶段训练样本为用于进行域间对比学习的训练样本的情况下,与所述第一锚点样本对应的域外负样本的数量大于或者等于与所述第一锚点样本对应的域内负样本的数量。4.根据权利要求1

3任一项所述的训练方法,其特征在于,所述第一阶段训练样本为用于进行域间对比学习的训练样本,所述第二阶段训练样本为用于进行域内对比学习的训练样本;所述获取第二阶段训练样本包括:从第二阶段数据集中获取第二锚点样本;通过正例数据增强方式对所述第二锚点样本进行数据增强处理,得到与所述第二锚点样本对应的域内正样本;通过负例数据增强方式对所述第二锚点样本进行数据增强处理,得到与所述第二锚点样本对应的域内负样本;将所述第二阶段数据集中除所述第二锚点样本之外的样本,作为与所述第二锚点样本对应的域外负样本。5.根据权利要求4所述的方法,其特征在于,所述第二阶段训练样本中的所述第二锚点样本为文本形式的样本,所述负例数据增强方式包括反义词替换;
所述通过负例数据增强方式对第二锚点样本进行数据增强处理,得到与第二锚点样本对应的域内负样本,包括:将文本形式的所述第二锚点样本进行词组分拆处理,得到P个独立词组;通过将所述P个独立词组中的Q个独立词组替换成对应的反义词,得到与第二锚点样本对应的域内负样本;其中,Q与P为正整数,Q与P之商位于第一阈值与第二阈值之间,第一阈值大于0,第二阈值小于1。6.根据权利要求4所述的方法,其特征在于,所述第二阶段训练样本中的所述第二锚点样本为图像形式的样本,所述负例数据增强方式包括颜色调整、内容替换和尺寸调整中的至少一种;所述通过负例数据增强方式对第二锚点样本进行数据增强处理,得到与第二锚点样本对应的域内负样本,包括:确定图像形式的所述第二锚点样本中的目标对象;在所述负例数据增强方式包括颜色调整的情况下,通过将所述目标对象的颜色调整为指定颜色,得到与第二锚点样本对应的域内负样本;在所述负例数据增强方式包括内容替换的情况下,通过将所述目标对象替换为指定对象,得到与第二锚点样本对应的域内负样本;在...

【专利技术属性】
技术研发人员:吕乐宾蒋宁肖冰李宽
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1