语义检索模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35189933 阅读:18 留言:0更新日期:2022-10-12 18:06
本公开提供了一种语义检索模型的训练方法、装置、电子设备及存储介质,涉及机器学习与自然语言处理等人工智能技术领域。具体实现方案为:获取至少两个原始语义检索模型中各原始语义检索模型对应的目标查询语句类型,原始语义检索模型对应的目标查询语句类型为原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型;基于至少两个原始语义检索模型、各原始语义检索模型对应的目标查询语句类型和预先建立的语料库,获取蒸馏数据集;基于蒸馏数据集,对目标语义检索模型进行训练。本公开的技术,能够使得训练的目标语义检索模型能够融合至少两个原始语义检索模型的检索能力,克服单一语义检索模型的缺陷,提高语义检索的准确性。语义检索的准确性。语义检索的准确性。

【技术实现步骤摘要】
语义检索模型的训练方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,具体涉及机器学习与自然语言处理等人工智能
,尤其涉及一种语义检索模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]信息时代,人们希望从海量的书本、网页、文档中快速地找到自己需要的信息。从大规模的数据中召回候选项,辅以对召回的数据进行置信度打分的重排序,已经成为当前信息检索的主流模式。
[0003]其中,在检索任务的召回阶段,通常有两种不同的方式:基于稀疏向量的检索和基于稠密向量的检索。其中,基于稀疏向量的检索方式,将查询语句query和候选语料编码成稀疏的向量,该向量的维度通常为词典大小。该方式主要依靠字面匹配程度来进行相似度计算。常见的算法包括BM25等,基于稀疏向量的检索对应的语义检索模型是不可学习的。这种方式迁移能力强,不受限于特定领域。基于稠密向量的检索方式,通过对应的语义检索模型将查询语句query和候选语料分别编码成语义空间中的两个向量,并基于向量进行相似度计算,以召回相关的结果。该方式中,需要通过训练数据来对语义检索模型进行训练,能够利用语义信息进行匹配程度的判断,但是迁移能力较差。

技术实现思路

[0004]本公开提供了一种语义检索模型的训练方法、装置、电子设备及存储介质。
[0005]根据本公开的一方面,提供了一种语义检索模型的训练方法,包括:
[0006]获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型,所述原始语义检索模型对应的目标查询语句类型为所述原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型;
[0007]基于至少两个原始语义检索模型、各所述原始语义检索模型对应的目标查询语句类型和预先建立的语料库,获取蒸馏数据集;
[0008]基于蒸馏数据集,对目标语义检索模型进行训练。
[0009]根据本公开的另一方面,提供了一种语义检索模型的训练装置,包括:
[0010]类型获取模块,用于获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型,所述原始语义检索模型对应的目标查询语句类型为所述原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型;
[0011]数据获取模块,用于基于至少两个原始语义检索模型和预先建立的语料库,获取蒸馏数据集;
[0012]训练模块,用于基于蒸馏数据集,对目标语义检索模型进行训练。
[0013]根据本公开的再一方面,提供了一种电子设备,包括:
[0014]至少一个处理器;以及
[0015]与所述至少一个处理器通信连接的存储器;其中,
[0016]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
[0017]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
[0018]根据本公开的再另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
[0019]根据本公开的技术,能够使得训练的目标语义检索模型能够融合至少两个原始语义检索模型的检索能力,克服单一语义检索模型的缺陷,提高语义检索的准确性。
[0020]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0021]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0022]图1是根据本公开第一实施例的示意图;
[0023]图2是根据本公开第二实施例的示意图;
[0024]图3是根据本公开第三实施例的示意图;
[0025]图4是本实施例的语义检索模型的训练方法的架构图;
[0026]图5是根据本公开第四实施例的示意图;
[0027]图6是根据本公开第五实施例的示意图;
[0028]图7是用来实现本公开实施例的方法的电子设备的框图。
具体实施方式
[0029]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0030]显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
[0031]需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。
[0032]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0033]现有技术中,基于稀疏向量的检索方式和基于稠密向量的检索方式,通常单独使
用,但是基于稀疏向量的检索方式只能建模字面匹配,缺乏对内容的语义理解,效果较差;而单独使用稠密向量的检索方式,会缺失一些字面匹配的信息。总之,单独使用上述任一种检索方式,均会导致语义检索的准确性欠佳。
[0034]图1是根据本公开第一实施例的示意图;如图1所示,本实施例提供一种语义检索模型的训练方法,具体可以包括如下步骤:
[0035]S101、获取至少两个原始语义检索模型中各原始语义检索模型对应的目标查询语句类型;
[0036]其中原始语义检索模型对应的目标查询语句类型为该原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型。
[0037]S102、基于至少两个原始语义检索模型、各原始语义检索模型对应的目标查询语句类型和预先建立的语料库,获取蒸馏数据集;
[0038]S103、基于蒸馏数据集,对目标语义检索模型进行训练。
[0039]本实施例的语义检索模型的训练方法的执行主体可以为语义检索模型的训练装置,该装置可以为电子实体;或者也可以为采用软件集成的应用,使用时,运行在计算机设备之上,实现对语义检索模型的训练。
[0040]本实施例的至少两个语义检索模型可以包括基于稀疏向量的语义检索模型和基于稠密向量的语义检索本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义检索模型的训练方法,包括:获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型,所述原始语义检索模型对应的目标查询语句类型为所述原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型;基于至少两个原始语义检索模型、各所述原始语义检索模型对应的目标查询语句类型和预先建立的语料库,获取蒸馏数据集;基于蒸馏数据集,对目标语义检索模型进行训练。2.根据权利要求1所述的方法,其中,获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型,包括:基于预先建立的各种类型查询语句对应的测试集,获取各所述原始语义检索模型对应的所述目标查询语句类型。3.根据权利要求1所述的方法,其中,获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型,包括:基于各所述原始语义检索模型的属性,获取各所述原始语义检索模型对应的所述目标查询语句类型。4.根据权利要求1

3任一所述的方法,其中,基于至少两个原始语义检索模型、各所述原始语义检索模型对应的目标查询语句类型和预先建立的语料库,获取蒸馏数据集,包括:基于各所述原始语义检索模型对应的目标查询语句类型,获取各所述原始语义检索模型对应的目标查询语句;基于各所述原始语义检索模型和各所述原始语义检索模型对应的目标查询语句,从所述语料库中召回预设数量的召回语料;基于各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,生成所述蒸馏数据集。5.根据权利要求4所述的方法,其中,基于各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,生成所述蒸馏数据集,包括:采用预先训练的精排模型,对各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料进行筛选,生成所述蒸馏数据集。6.根据权利要求5所述的方法,其中,采用预先训练的精排模型,对各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料进行筛选,生成所述蒸馏数据集,包括:基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,筛选正样本数据;基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,筛选负样本数据;将所述正样本数据和所述负样本数据,存入所述蒸馏数据集中。7.根据权利要求6所述的方法,其中,基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,筛选正样本数据,包括:对于各所述原始语义检索模型对应的目标查询语句,采用所述精排模型计算所述目标查询语句和对应召回的所述预设数量的召回语料中各所述召回语料的相关度分值;
从所述预设数量的召回语料的前N条中删除所述相关度分值小于预设阈值的召回语料;其中N为大于1的正整数;基于所述目标查询语句和所述预设数量的召回语料中的前N条剩下的各召回语料,构建所述正样本数据。8.根据权利要求6所述的方法,其中,基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,筛选负样本数据,包括:对于各所述原始语义检索模型对应的目标查询语句,从所述预设数量的召回语料中的第N+1条之后的召回语料中,选择相关度分值小于预设阈值的召回语料;其中N为大于1的正整数;基于所述目标查询语句和从所述预设数量的召回语料中的第N+1条之后的召回语料中选择的相关度分值小于预设阈值的召回语料,构建负样本数据。9.根据权利要求6所述的方法,其中,基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,筛选负样本数据,包括:对于各所述原始语义检索模型对应的目标查询语句,采用所述精排模型计算对应的所述目标查询语句和对应召回的所述预设数量的召回语料中各所述召回语料的相关度分值;根据各所述目标查询语句和各所述召回语料的相关度分值,从所述至少两个原始语义检索模型的所有召回语料中,按照预设的方式,筛选所述负样本数据。1...

【专利技术属性】
技术研发人员:曲瑛琪王海峰田浩吴华吴甜刘璟丁宇辰邢毅然
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1