【技术实现步骤摘要】
召回内容的确定方法、装置、设备以及存储介质
本公开涉及数据处理
,尤其涉及大数据、智能搜索等领域。
技术介绍
涉及内容召回的搜索包括三种角色,用户、内容提供方和搜索引擎。搜索过程大致为:用户提交原始查询词或原始查询短句,内容提供方向搜索引擎提供关键词和内容信息,其中,内容信息可以作为关键词的关联信息。搜索引擎用于根据用户提交的原始查询词或原始查询短句,确定出与之匹配的关键词,并确认出关键词的关联信息作为召回内容反馈给用户。相关技术中,在确定原始查询词或原始查询短句与关键词匹配的过程中,采用整体目标最优化的方式。因此会造成覆盖性差的缺陷,尤其对于低频查询词或查询短句很难确定出召回内容。
技术实现思路
本公开提供了一种召回内容的确定方法、装置、设备以及存储介质。根据本公开的一方面,提供了一种召回内容的确定方法,该方法可以包括以下步骤:确定与原始查询词相似的至少一个扩展查询词;根据原始查询词和扩展查询词,确定多个候选关键词;从多个候选关键词中确定目标关键词,将与目标关键词对应的关联信息作为确定出的召回内容,目标关键词与关联信息的对应关系是预先建立的。根据本公开的另一方面,提供了一种召回内容的确定装置,该装置可以包括:扩展查询词确定模块,用于确定与原始查询词相似的至少一个扩展查询词;候选关键词确定模块,用于根据原始查询词和扩展查询词,确定多个候选关键词;召回内容确定模块,用于从多个候选关键词中确定目标关键词,将与目标关键词对应的 ...
【技术保护点】
1.一种召回内容的确定方法,包括:/n确定与原始查询词相似的至少一个扩展查询词;/n根据所述原始查询词和所述扩展查询词,确定多个候选关键词;/n从所述多个候选关键词中确定目标关键词,将与所述目标关键词对应的关联信息作为确定出的召回内容,所述目标关键词与所述关联信息的对应关系是预先建立的。/n
【技术特征摘要】
1.一种召回内容的确定方法,包括:
确定与原始查询词相似的至少一个扩展查询词;
根据所述原始查询词和所述扩展查询词,确定多个候选关键词;
从所述多个候选关键词中确定目标关键词,将与所述目标关键词对应的关联信息作为确定出的召回内容,所述目标关键词与所述关联信息的对应关系是预先建立的。
2.根据权利要求1所述的方法,其中,所述从所述多个候选关键词中确定目标关键词,包括:
分别将所述原始查询词与所述多个候选关键词组成多个第一匹配对;
在所述至少一个扩展查询词和所述多个候选关键词中,筛选出符合预定条件的多个第二匹配对,每个所述第二匹配对中包括一个所述扩展查询词和一个所述候选关键词;
计算每个所述第一匹配对与每个所述第二匹配对的相似度,根据相似度计算结果选择至少一个第一匹配对;
将选择出的每个第一匹配对中的候选关键词确定为目标关键词。
3.根据权利要求1所述的方法,其中,所述从所述多个候选关键词中确定目标关键词,包括:
利用第一筛选规则,从所述多个候选关键词中确定多个第一候选关键词;
利用第二筛选规则,从所述多个候选关键词中确定多个第二候选关键词;
将所述多个第一候选关键词和所述多个第二候选关键词进行求交集运算,将运算结果中包括的候选关键词作为确定出的目标关键词。
4.根据权利要求3所述的方法,其中,所述利用第一筛选规则,从所述多个候选关键词确定出多个第一候选关键词,包括:
将所述原始查询词及所述扩展查询词,分别与所述多个候选关键词组成多个第三匹配对;
将出现在坏例集合中的第三匹配对删除,所述坏例集合中包含多个已经被确定为坏例的匹配对;
将删除后剩余的第三匹配对中的候选关键词确定为第一候选关键词。
5.根据权利要求1所述的方法,其中,所述确定与原始查询词相似的至少一个扩展查询词,包括:
利用预先训练的相似性模型,在数据库中查询与所述原始查询词相似的多个扩展查询词;所述数据库保存扩展查询词正例;
从所述多个扩展查询词中选择至少一个扩展查询词。
6.根据权利要求5所述的方法,其中,所述数据库还保存候选关键词正例,以及每个所述扩展查询词正例与每个所述候选关键词正例的映射关系;
所述根据所述原始查询词和所述扩展查询词,确定多个候选关键词,包括:
利用所述映射关系,确定与所述原始查询词或所述扩展查询词具有映射关系的匹配关键词;
根据所述匹配关键词,利用所述预先训练的相似性模型,得到多个候选关键词。
7.根据权利要求5或6所述的方法,其中,所述相似性模型的训练过程包括:
将查询词样本、与所述查询词样本相似度不低于阈值的正样本以及与所述查询词样本相似度低于阈值的负样本输入待训练的相似性模型;
确定所述相似性模型输出的所述查询词样本与所述正样本的第一差异值,以及所述相似性模型输出的所述查询词样本与所述负样本的第二差异值;
计算第一差异值标注结果与所述第一差异值的第一差值,以及第二差异值标注结果与所述第二差异值的第二差值;
利用所述第一差值和所述第二差值对所述待训练的相似性模型进行训练。
8.一种召回内容的确定装置,包括:
扩展查询词确定模块,用于确定与原始查询词相似的至少一个扩展查询词;
候选关键词确定模块,用于根据所述原始查询词和所述扩展查询词,确定多个候选关键词;
召回内容确定模块,用于从所述多个候选关键词中确定目标关键词,将与所述目标关键词对应的关联信息作为确定出的召回内容,所述目标关键词与所述关联信息的对应关系是预先建立的。
9.根据权利要求8所述的装置,其中,所述召回内容确定模块,包括:
第一匹配对组建子模块,...
【专利技术属性】
技术研发人员:杨新涛,连义江,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。