【技术实现步骤摘要】
检索模型的训练方法、装置、设备和计算机存储介质
本申请涉及计算机
,特别涉及智能搜索和自然语言处理技术。
技术介绍
在信息时代,人们希望从海量的文本中快速找到自己需要的信息,因此信息检索技术变得至关重要。随着深度神经网络的推广与发展,信息检索技术也发生着巨大变化,各种预训练语言模型作为检索模型被运用于信息检索领域中,带来了显著的效果提升。在检索模型的训练过程中需要大量人工标注的训练数据,训练数据的数量和质量直接决定了检索模型的最终效果。然而高质量的训练数据是非常宝贵的,如何在保证模型效果的前提下,降低模型训练过程中对高质量训练数据的要求成为亟待解决的问题。
技术实现思路
有鉴于此,本申请提供了一种检索模型的训练方法、装置、设备和计算机存储介质,以便于在保证模型效果的前提下,降低模型训练过程中对高质量训练数据的要求。第一方面,本申请提供了一种检索模型的训练方法,包括:获取初始训练数据,所述初始训练数据包括查询项query以及该query对应的相关文本正例和相关文本负例;利用所述初始训练 ...
【技术保护点】
1.一种检索模型的训练方法,包括:/n获取初始训练数据,所述初始训练数据包括查询项query以及该query对应的相关文本正例和相关文本负例;利用所述初始训练数据训练得到初始检索模型;/n利用所述初始检索模型从候选文本中选择与训练数据中的query的相关度满足预设第一要求的文本以更新该query对应的相关文本负例;利用更新后的训练数据训练得到第一检索模型;/n利用所述第一检索模型,从所述候选文本中选择与训练数据中的query的相关度满足预设第二要求的文本以扩充该query对应的相关文本正例,和/或,选择与该query的相关度满足预设第三要求的文本用以扩充该query对应的相 ...
【技术特征摘要】
1.一种检索模型的训练方法,包括:
获取初始训练数据,所述初始训练数据包括查询项query以及该query对应的相关文本正例和相关文本负例;利用所述初始训练数据训练得到初始检索模型;
利用所述初始检索模型从候选文本中选择与训练数据中的query的相关度满足预设第一要求的文本以更新该query对应的相关文本负例;利用更新后的训练数据训练得到第一检索模型;
利用所述第一检索模型,从所述候选文本中选择与训练数据中的query的相关度满足预设第二要求的文本以扩充该query对应的相关文本正例,和/或,选择与该query的相关度满足预设第三要求的文本用以扩充该query对应的相关文本负例;利用扩充后的训练数据训练得到第二检索模型。
2.根据权利要求1所述的方法,其中,所述初始训练数据中的相关文本正例由人工标注获得,相关文本负例是从候选文本中随机选取。
3.根据权利要求1所述的方法,其中,利用所述初始训练数据训练得到初始检索模型包括:
利用所述初始训练数据训练双塔模型,得到所述初始检索模型;其中,训练目标包括:所述双塔模型输出的query与该query对应的相关文本正例的相关度大于该query与所述初始训练数据中其他相关文本的相关度。
4.根据权利要求1所述的方法,其中,利用所述初始检索模型从候选文本中选择与训练数据中的query的相关度满足预设第一要求的文本以更新该query对应的相关文本负例包括:
利用所述初始检索模型确定query与各候选文本的相关度,从相关度得分排在前M1个的候选文本中随机选择M2个用以更新该query对应的相关文本负例;
其中M1和M2均为正整数,且M1>M2。
5.根据权利要求1所述的方法,其中,所述利用更新后的训练数据训练得到第一检索模型包括:
利用更新后的训练数据训练交叉注意力模型,得到所述第一检索模型;其中,训练目标包括:所述交叉注意力模型得到的训练数据中query与该query对应的相关文本正例的相关度大于或等于预设阈值,query与该query对应的相关文本负例的相关度小于所述预设阈值。
6.根据权利要求5所述的方法,其中,利用所述第一检索模型,从所述候选文本中选择与训练数据中的query的相关度满足预设第二要求的文本以扩充该query对应的相关文本正例,和/或,选择与该query的相关度满足预设第三要求的文本用以扩充该query对应的相关文本负例包括:
利用所述初始检索模型从候选文本中检索训练数据中query的相关文本;
利用所述第一检索模型确定所述相关文本与该query的相关度,将相关度大于或等于预设第一阈值的文本用以扩充该query对应的相关文本正例;和/或,将相关度小于或等于预设第二阈值的文本用以扩展该query对应的相关文本负例,所述第一阈值大于所述第二阈值。
7.根据权利要求3所述的方法,其中,利用扩充后的训练数据训练得到第二检索模型包括:
利用所述扩充后的训练数据,进一步对所述双塔模型进行训练,得到第二检索模型。
8.根据权利要求1至7中任一项所述的方法,该方法还包括:
利用所述第二检索模型从候选文本中选择与训练数据中的query的相关度满足预设第四要求的文本以更新该query对应的相关文本负例;利用更新后的训练数据训练得到第三检索模型;
利用所述第三检索模型,从候选文本中分别选择与各补充query的相关度满足预设第五要求的文本用以产生各补充query对应的相关文本正例,和/或,选择与各补充query满足预设第六要求的文本分别用以产生各补充query对应的相关文本负例;利用所述各补充query对应的相关文本正例和/或相关文本负例扩充训练数据;利用扩充后的训练数据训练得到第四检索模型。
9.根据权利要求8所述的方法,其中,利用所述第二检索模型从候选文本中选择与训练数据中的query的相关度满足预设第四要求的文本以更新该query对应的相关文本负例包括:
利用所述第二检索模型确定query与该候选文本的相关度;
依据相关度排序以N1个候选文本为间隔选择N2个候选文本;
从选择的所述N2个候选文本中过滤掉与该query对应的相关文本正例的相似度大于或等于预设相似度阈值的候选文本后,将得到的候选文本用以更新该query对应的相关文本负例,所述N1和N2为预设的正整数。
10.根据权利要求8所述的方法,其中,利用所述第三检索模型,从候选文本中分别选择与各补充query的相关度满足预设第五要求的文本用以产生各补充query对应的相关文本正例,和/或,选择与各补充query满足预设第六要求的文本分别用以产生各补充query对应的相关文本负例包括:
利用所述第二检索模型从候选文本中检索训练数据中query的相关文本;
利用所述第三检索模型确定所述相关文本与各补充query的相似度,将相似度大于或等于预设第一阈值的文本作为各补充query对应的相关文本正例,和/或,将相似度小于或等于预设第二阈值的文本作为各补充query对应的相关文本负例。
11.根据权利要求8所述的方法,其中,所述利用更新后的训练数据训练得到第三检索模型包括:
利用更新后的训练数据进一步训练所述第一检索模型,得到所述第三检索模型;
所述利用扩充后的训练数据训练得到第四检索模型包括:
利用所述扩充后的训练数据,进一步训练所述第二检索模型得到第四检索模型。
...
【专利技术属性】
技术研发人员:丁宇辰,曲瑛琪,刘璟,刘凯,洪豆,吴华,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。