【技术实现步骤摘要】
实体召回模型的样本生成方法、装置、设备及存储介质
[0001]本申请涉及人工智能
,特别涉及一种实体召回模型的样本生成方法、装置、设备及存储介质。
技术介绍
[0002]目前,用户可以通过搜索引擎进行搜索以获取相关的应答文本。
[0003]在相关技术中,在获取用户帐号输入的查询文本之后,通过分类模型对该查询文本进行处理,以得到该查询文本对应的实体,并以该实体为索引确定查询文本对应的一个或多个应答文本。其中,上述分类模型是基于人工标注的有监督训练样本训练得到的。
[0004]在分类模型训练之前,需要人工对不同类别的训练样本进行准确标注,且一个实体对应一个类别,标注速度慢,导致模型训练效率低。
技术实现思路
[0005]本申请实施例提供了一种实体召回模型的样本生成方法、装置、设备及存储介质,能够提高实体召回模型的训练样本生成效率,提高实体召回模型的训练效率。所述技术方案如下。
[0006]根据本申请实施例的一个方面,提供了一种实体召回模型的样本生成方法,所述方法包括以下步骤: >[0007]获取属本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种实体召回模型的样本生成方法,其特征在于,所述方法包括:获取属于同一目标领域的多个查询文本语料,以及多个所述查询文本语料分别对应的应答文本语料;从所述查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到所述查询文本语料对应的实体集合;对于多个所述查询文本语料中的第一查询文本语料,基于所述第一查询文本语料以及第一实体集合,生成所述第一实体召回模型的训练样本正例;其中,所述第一实体集合是指所述第一查询文本语料对应的实体集合;基于所述第一查询文本语料以及第二实体集合,生成所述第一实体召回模型的训练样本负例;其中,所述第二实体集合是指第二查询文本语料对应的实体集合,所述第二查询文本语料是多个所述查询文本语料中,除所述第一查询文本语料之外的查询文本语料;其中,所述训练样本正例和所述训练样本负例用于对所述第一实体召回模型进行训练,完成训练的所述第一实体召回模型用于确定属于所述目标领域的目标查询文本与目标实体之间的语义匹配度。2.根据权利要求1所述的方法,其特征在于,所述从所述查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到所述查询文本语料对应的实体集合,包括:对所述查询文本语料对应的应答文本语料进行分词处理,得到至少一个分词;基于所述目标领域的实体库的查询实体,从所述至少一个分词中确定满足所述第一条件的至少一个实体,得到所述查询文本语料对应的实体集合。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标领域的实体库的查询实体,从所述至少一个分词中确定满足所述第一条件的至少一个实体,得到所述查询文本语料对应的实体集合,包括:从所述至少一个分词中确定包含于所述实体库的分词,得到至少一个候选实体;分别获取各个所述候选实体在所述应答文本语料中的重要程度;基于所述重要程度满足第二条件的候选实体,得到所述查询文本语料对应的实体集合。4.根据权利要求3所述的方法,其特征在于,所述分别获取各个所述候选实体在所述应答文本语料中的重要程度,包括:获取所述候选实体在所述至少一个分词中的出现次数,所述出现次数与所述重要程度呈正相关关系;或者,获取所述候选实体在所述至少一个分词中的出现次数,以及所述至少一个分词的总数量;根据所述出现次数和所述总数量,确定所述候选实体在所述应答文本语料中的出现频率;其中,所述出现频率与所述重要程度呈正相关关系;或者,获取所述候选实体在所述至少一个分词中的出现次数,以及各个所述候选实体在所述至少一个分词中的出现总次数;根据所述出现次数和所述出现总次数,确定所述候选实体在多个所述候选实体中的出现比例;其中,所述出现比例与所述重要程度呈正相关关系。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取属于所述目标领域的至少一个候选查询实体;分别获取各个所述候选查询实体在历史查询数据中的查询次数;基于所述查询次数满足第三条件的候选查询实体,生成所述实体库中的查询实体;其中,所述实体库包括属于所述目标领域的多个查询实体。6.根据权利要求1所述的方法,其特征在于,所述第一实体集合中包含a个实体,a为正整数;所述第二实体集合中包含b个实体,b为正整数;所述基于所述第一查询文本语料以及第一实体集合,生成所述第一实体召回模型的训练样本正例,包括:基于所述第一查询文本语料以及所述a个实体,生成所述第一实体召回模型的a个训练样本正例;其中,所述a个训练样本正例中的一个训练样本正例,包括所述第一查询文本语料以及所述a个实体中的一个实体;所述基于所述第一查询文本语料以及第二实体集合,生成所述第一实体召回模型的训练样本负例,包括:基于所述第一查询文本语料以及所述b个实体,生成所述第一实体召回模型的b个训练样本负例;其中,所述b个训练样本负例中的一个训练样本负例,包括所述第一查询文本语料以及所述b个实体中的一个实体。7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:基于所述第一实体集合,对各个其它查询文本语料对应的实体集合进行遍历,得到各个所述其它查询文本语料分别对应的实体重复结果;其中,所述实体重复结果用于指示所述第一实体集合,与所述其它查询文本语料对应的实体集合之间是否存在相同的实体;根据所述实体重复结果,从各个所述其它查询文本语料中确定至少一个所述第二查询文本语料;其中,所述第二实体集合与所述第一实体集合之间不存在相同的实体。8.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:将所述训练样本正例和所述训练样本负例分别输入至所述第一实体召回模型,得到所述第一实体召回模型针对所述第一查询文本语料的输出结果;基于多个所述查询文本语料的输出结果,确定所述第一实体召回模型的损失;根据所述第一实体召回模型的损失对所述第一实体召回模型进行参数调整。9.根据权利要求8所述的方法,其特征在于,所述将所述训练样本正例和所述训练样本负例分别输入至所述第一实体召回模型,得到所述第一实体召回模型针对所述第一查询文本语料的输出结果,包括:获取所述第一查询文本语料的文本语义向量;以及,分别获取所述第一实体集合的各个正例实体的正例语义向量;以及,分别获取所述第二实体集合的各个负例实体的负例语义向量;基于所述文本语义向量和所述正例语义向量,确定第一语义距离;基于所述文本语义向量和所述负例语义向量,确定第二语义距离;其中,所述第一查询文本语料的输出结果包括各个所述正例实体分别对应的第一语义
距离,以及各个所述负例实体分别对应的第二语义距离。10.根据权利要求9所述的方法,其特征在于,所述基于多个所述查询文本语料的输出结果,确定所述第一实体召回模型的损失,包括:对所述第一实体集合的任一正例实体,与所述第二实体集合的任一负例实体进行组合,得到至少一个实体组;其中,一个实体组包括一个正例实体和一个负例实体;对于所述至少一个实体组中的目标实体组,根据所述目标实体组中目标正例实体对...
【专利技术属性】
技术研发人员:贺飞艳,邵纪春,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。