【技术实现步骤摘要】
一种纠错模型的训练方法、检索词纠错方法、设备及介质
[0001]本申请涉及检索词纠错
,更具体地说,涉及一种纠错模型的训练方法、检索词纠错方法、设备及介质。
技术介绍
[0002]目前,用户可以通过搜索引擎从互联网获取对应的搜索结果,如:用户通过搜索引擎的搜索框输入检索词,搜索引擎从互联网上搜索与检索词对应的检索结果,并返回给用户查看。可以看出,检索结果与检索词具有很强的关联性,若用户由于手误等原因在搜索框内输入了错误的检索词,则搜索引擎返回的检索结果为错误检索词的检索结果,因此,若用户在搜索框内输入错误检索词后,搜索引擎根本不能返回符合用户检索意图的结果,从而导致检索质量很差,甚至无检索结果。
技术实现思路
[0003]本申请的目的在于提供一种纠错模型的训练方法、检索词纠错方法、设备及介质,以避免因检索词错误降低检索质量。
[0004]为实现上述目的,本申请第一方面提供了一种纠错模型的训练方法,包括:
[0005]从目标训练数据中获取纠错前检索词;
[0006]将所述纠错前检索 ...
【技术保护点】
【技术特征摘要】
1.一种纠错模型的训练方法,其特征在于,包括:从目标训练数据中获取纠错前检索词;将所述纠错前检索词输入初始纠错模型,并确定待纠错字;所述初始纠错模型为Seq2Seq模型;利用所述初始纠错模型的注意力模块确定与所述待纠错字对应的第一预测分布向量;利用所述初始纠错模型的覆盖率模块确定与所述待纠错字对应的第二预测分布向量;所述第一预测分布向量表示所述纠错前检索词中每个字的预测概率;所述第二预测分布向量表示词表中每个字的预测概率;将所述第一预测分布向量及所述第二预测分布向量输入所述初始纠错模型的门控模块,得到最终预测分布向量;根据所述最终预测分布向量确定与所述待纠错字对应的预测字,并继续确定与下一个待纠错字对应的预测字,直至得到与所述纠错前检索词对应的预测检索词为止;所述预测检索词包括每个预测字;根据每个预测字在对应的最终预测分布向量中的预测值,以及与所述纠错前检索词对应的纠错后检索词的真实分布向量计算损失函数值;若所述损失函数值大于第一预定阈值,则利用所述损失函数值对所述初始纠错模型进行参数更新,并利用下一个纠错前检索词对初始纠错模型继续训练;否则,将所述初始纠错模型作为最终纠错模型。2.根据权利要求1所述的训练方法,其特征在于,所述从目标训练数据中获取纠错前检索词之前,还包括:获取初始训练数据;对所述初始训练数据执行数据增强操作,得到目标训练数据。3.根据权利要求2所述的训练方法,其特征在于,所述对所述初始训练数据执行数据增强操作,得到目标训练数据,包括:从所述初始训练数据中确定待增强的纠错对;对所述待增强的纠错对中的纠错前检索词执行数据增强操作。4.根据权利要求3所述的训练方法,其特征在于,所述对所述待增强的纠错对中的纠错前检索词执行数据增强操作,包括:对所述待增强的纠错对中的纠错前检索词,执行如下至少一者数据增强操作:将纠错前检索词中的任意字替换为随机字、在纠错前检索词中的任意位置插入随机字、将纠错前检索词中的至少两个字的位置进行随机交换、将纠错前检索词中的任意字删除。5.根据权利要求3所述的训练方法,其特征在于,所述对所述初始训练数据执行数据增强操作之后,还包括:确定当前训练数据中第一类型纠错对的数量及第二类型纠错对的数量,所述第一类型纠错对为:纠错前检索词为正确检索词的纠错对,所述第二类型纠错对为:纠错前检索词为错误检索词的纠错对;根据预定比例值调整所述第一类型纠错对及所述第二类型纠错对的数...
【专利技术属性】
技术研发人员:吴上权,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。