【技术实现步骤摘要】
语义检索模型的训练方法、装置、电子设备及存储介质
[0001]本公开涉及计算机
,具体涉及机器学习与自然语言处理等人工智能
,尤其涉及一种语义检索模型的训练方法、装置、电子设备及存储介质。
技术介绍
[0002]信息时代,人们希望从海量的书本、网页、文档中快速地找到自己需要的信息。从大规模的数据中召回候选项,辅以对召回的数据进行置信度打分的重排序,已经成为当前信息检索的主流模式。
[0003]其中,在检索任务的召回阶段,通常有两种不同的方式:基于稀疏向量的检索和基于稠密向量的检索。其中,基于稀疏向量的检索方式,将查询语句query和候选语料编码成稀疏的向量,该向量的维度通常为词典大小。该方式主要依靠字面匹配程度来进行相似度计算。常见的算法包括BM25等,基于稀疏向量的检索对应的语义检索模型是不可学习的。这种方式迁移能力强,不受限于特定领域。基于稠密向量的检索方式,通过对应的语义检索模型将查询语句query和候选语料分别编码成语义空间中的两个向量,并基于向量进行相似度计算,以召回相关的结果。该方式中,需要通过训练数据来对语义检索模型进行训练,能够利用语义信息进行匹配程度的判断,但是迁移能力较差。
技术实现思路
[0004]本公开提供了一种语义检索模型的训练方法、装置、电子设备及存储介质。
[0005]根据本公开的一方面,提供了一种语义检索模型的训练方法,包括:
[0006]获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型,所述原始语义检索模型 ...
【技术保护点】
【技术特征摘要】
1.一种语义检索模型的训练方法,包括:获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型,所述原始语义检索模型对应的目标查询语句类型为所述原始语义检索模型处理各种类型的查询语句中、准确性最高的查询语句类型;基于至少两个原始语义检索模型、各所述原始语义检索模型对应的目标查询语句类型和预先建立的语料库,获取蒸馏数据集;基于蒸馏数据集,对目标语义检索模型进行训练。2.根据权利要求1所述的方法,其中,获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型,包括:基于预先建立的各种类型查询语句对应的测试集,获取各所述原始语义检索模型对应的所述目标查询语句类型。3.根据权利要求1所述的方法,其中,获取至少两个原始语义检索模型中各所述原始语义检索模型对应的目标查询语句类型,包括:基于各所述原始语义检索模型的属性,获取各所述原始语义检索模型对应的所述目标查询语句类型。4.根据权利要求1
‑
3任一所述的方法,其中,基于至少两个原始语义检索模型、各所述原始语义检索模型对应的目标查询语句类型和预先建立的语料库,获取蒸馏数据集,包括:基于各所述原始语义检索模型对应的目标查询语句类型,获取各所述原始语义检索模型对应的目标查询语句;基于各所述原始语义检索模型和各所述原始语义检索模型对应的目标查询语句,从所述语料库中召回预设数量的召回语料;基于各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,生成所述蒸馏数据集。5.根据权利要求4所述的方法,其中,基于各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,生成所述蒸馏数据集,包括:采用预先训练的精排模型,对各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料进行筛选,生成所述蒸馏数据集。6.根据权利要求5所述的方法,其中,采用预先训练的精排模型,对各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料进行筛选,生成所述蒸馏数据集,包括:基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,筛选正样本数据;基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,筛选负样本数据;将所述正样本数据和所述负样本数据,存入所述蒸馏数据集中。7.根据权利要求6所述的方法,其中,基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,筛选正样本数据,包括:对于各所述原始语义检索模型对应的目标查询语句,采用所述精排模型计算所述目标查询语句和对应召回的所述预设数量的召回语料中各所述召回语料的相关度分值;
从所述预设数量的召回语料的前N条中删除所述相关度分值小于预设阈值的召回语料;其中N为大于1的正整数;基于所述目标查询语句和所述预设数量的召回语料中的前N条剩下的各召回语料,构建所述正样本数据。8.根据权利要求6所述的方法,其中,基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,筛选负样本数据,包括:对于各所述原始语义检索模型对应的目标查询语句,从所述预设数量的召回语料中的第N+1条之后的召回语料中,选择相关度分值小于预设阈值的召回语料;其中N为大于1的正整数;基于所述目标查询语句和从所述预设数量的召回语料中的第N+1条之后的召回语料中选择的相关度分值小于预设阈值的召回语料,构建负样本数据。9.根据权利要求6所述的方法,其中,基于所述精排模型、各所述原始语义检索模型对应的目标查询语句以及对应召回的所述预设数量的召回语料,筛选负样本数据,包括:对于各所述原始语义检索模型对应的目标查询语句,采用所述精排模型计算对应的所述目标查询语句和对应召回的所述预设数量的召回语料中各所述召回语料的相关度分值;根据各所述目标查询语句和各所述召回语料的相关度分值,从所述至少两个原始语义检索模型的所有召回语料中,按照预设的方式,筛选所述负样本数据。1...
【专利技术属性】
技术研发人员:曲瑛琪,王海峰,田浩,吴华,吴甜,刘璟,丁宇辰,邢毅然,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。