召回内容的确定方法、装置、设备以及存储介质制造方法及图纸

技术编号:28978929 阅读:13 留言:0更新日期:2021-06-23 09:25
本公开提供了一种召回内容的确定方法、装置、设备以及存储介质,涉及大数据、智能搜索等领域。具体实现方案为:确定与原始查询词相似的至少一个扩展查询词;根据原始查询词和扩展查询词,确定多个候选关键词;从多个候选关键词中确定目标关键词,将与目标关键词对应的关联信息作为确定出的召回内容,目标关键词与关联信息的对应关系是预先建立的。利用相似性查询的方式对原始查询词和关键词进行扩展,从而在面对低频查询词时,可以充分扩展从而提高确定出召回内容的概率。

【技术实现步骤摘要】
召回内容的确定方法、装置、设备以及存储介质
本公开涉及数据处理
,尤其涉及大数据、智能搜索等领域。
技术介绍
涉及内容召回的搜索包括三种角色,用户、内容提供方和搜索引擎。搜索过程大致为:用户提交原始查询词或原始查询短句,内容提供方向搜索引擎提供关键词和内容信息,其中,内容信息可以作为关键词的关联信息。搜索引擎用于根据用户提交的原始查询词或原始查询短句,确定出与之匹配的关键词,并确认出关键词的关联信息作为召回内容反馈给用户。相关技术中,在确定原始查询词或原始查询短句与关键词匹配的过程中,采用整体目标最优化的方式。因此会造成覆盖性差的缺陷,尤其对于低频查询词或查询短句很难确定出召回内容。
技术实现思路
本公开提供了一种召回内容的确定方法、装置、设备以及存储介质。根据本公开的一方面,提供了一种召回内容的确定方法,该方法可以包括以下步骤:确定与原始查询词相似的至少一个扩展查询词;根据原始查询词和扩展查询词,确定多个候选关键词;从多个候选关键词中确定目标关键词,将与目标关键词对应的关联信息作为确定出的召回内容,目标关键词与关联信息的对应关系是预先建立的。根据本公开的另一方面,提供了一种召回内容的确定装置,该装置可以包括:扩展查询词确定模块,用于确定与原始查询词相似的至少一个扩展查询词;候选关键词确定模块,用于根据原始查询词和扩展查询词,确定多个候选关键词;召回内容确定模块,用于从多个候选关键词中确定目标关键词,将与目标关键词对应的关联信息作为确定出的召回内容,目标关键词与关联信息的对应关系是预先建立的。根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与该至少一个处理器通信连接的存储器;其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例中的方法。根据本公开的技术,利用相似性查询的方式对原始查询词和关键词进行扩展,从而在面对低频查询词时,可以充分扩展从而提高确定出召回内容的概率。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是根据本公开召回内容的确定方法的流程图;图2是根据本公开确定目标关键词的流程图;图3是根据本公开确定目标关键词的流程图;图4是根据本公开从多个候选关键词确定出多个第一候选关键词的流程图;图5是根据本公开确定扩展查询词的流程图;图6是根据本公开确定候选关键词的流程图;图7是根据本公开相似性模型的训练过程的流程图;图8是根据本公开相似性模型的训练示意图;图9是根据本公开召回内容的确定方法的流程图;图10是根据本公开确定候选关键词的示意图;图11是根据本公开对候选关键词进行过滤的示意图;图12是根据本公开召回内容的确定装置的示意图;图13是用来实现本公开实施例的召回内容的确定方法的电子设备的框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。如图1所示,本申请提供一种召回内容的确定方法,该方法可以包括以下步骤:S101:确定与原始查询词相似的至少一个扩展查询词;S102:根据原始查询词和扩展查询词,确定多个候选关键词;S103:从多个候选关键词中确定目标关键词,将与目标关键词对应的关联信息作为确定出的召回内容,目标关键词与关联信息的对应关系是预先建立的。本公开的上述方法的执行主体可以是搜索引擎对应的服务器或云端等,后文简称为搜索引擎。原始查询词可以是搜索引擎接收到的,由用户上传的检索词或检索短语等。关键词(候选关键词、目标关键词),以及与关键词对应的关联信息可以是内容提供方预先上传至搜索引擎的。在搜索引擎中,可以构建关键词库,用以存储内容提供方预先上传的关键词。内容提供方可以包括广告创意提供方、课业辅导内容提供方、各行业项目解决方案提供方等。搜索引擎在接收到原始查询词的情况下,首先对原始查询词进行相似性查询。以确定出与原始查询词相似的至少一个扩展查询词。例如,可以根据历史数据、经验或人工标注等方式预先确定出<查询词,关键词>的种子库。种子库中的查询词和关键词匹配对可以被认为是高质量的,例如历史数据中出现的点击率高的情况,或者人工利用经验进行标注出的等情况。种子库以及前述关键词库可以共同构建成搜索引擎的数据库。搜索引擎可以利用相似性,在种子库中确定出与原始查询词相似度较高的扩展查询词。在得到扩展查询词后,可以根据前述种子库中的匹配情况,分别确定出与每个扩展查询词具有匹配关系的关键词。进一步的,还可以利用相似性查询得到关键词。例如,可以在关键词库中查询到与前述确定出的关键词具有较高相似度的其他关键词。另外,还可以在种子库已包含的关键词中查询到与前述确定出的关键词具有较高相似度的其他关键词。前述确定出的关键词,以及与确定出的关键词具有较高相似度的其他关键词都可以作为候选关键词。对候选关键词进行筛选,可以通过相似性比较的方式进行。例如,可以将原始查询词依次与每个候选关键词组成匹配对。进而进行匹配对与种子库中匹配对的相似度比较,将相似度大于对应阈值的匹配对中的候选关键词确定为目标关键词。另外,对于候选关键词的筛选还可以通过过滤的方式进行。例如,可以预先构建坏例集合,坏例集合中包括有点击率低或者人工标注的坏例匹配对。将原始查询词依次与每个候选关键词组成匹配对。在组成的匹配对已存在于坏例集合中的情况下,可以将其删除。删除后保留下来的匹配对中的候选关键词,可以作为目标关键词。通过目标关键词,即可迅速锁定与其对应的关联信息。该关联信息即可作为确定出的召回内容。以查询广告创意的场景为例,例如,搜索引擎接收到的原始查询词为“饮料广告创意”,根据相似性查询,可以得出与原始查询词相似的多个扩展查询词,例如“果汁饮料广告创意”、“碳酸饮料广告创意”、“咖啡饮料广告创意”等。根据原始查询词、扩展查询词,可以匹配出多个候选关键词,例如候选关键词可以包括“营养”、“富含维生素本文档来自技高网...

【技术保护点】
1.一种召回内容的确定方法,包括:/n确定与原始查询词相似的至少一个扩展查询词;/n根据所述原始查询词和所述扩展查询词,确定多个候选关键词;/n从所述多个候选关键词中确定目标关键词,将与所述目标关键词对应的关联信息作为确定出的召回内容,所述目标关键词与所述关联信息的对应关系是预先建立的。/n

【技术特征摘要】
1.一种召回内容的确定方法,包括:
确定与原始查询词相似的至少一个扩展查询词;
根据所述原始查询词和所述扩展查询词,确定多个候选关键词;
从所述多个候选关键词中确定目标关键词,将与所述目标关键词对应的关联信息作为确定出的召回内容,所述目标关键词与所述关联信息的对应关系是预先建立的。


2.根据权利要求1所述的方法,其中,所述从所述多个候选关键词中确定目标关键词,包括:
分别将所述原始查询词与所述多个候选关键词组成多个第一匹配对;
在所述至少一个扩展查询词和所述多个候选关键词中,筛选出符合预定条件的多个第二匹配对,每个所述第二匹配对中包括一个所述扩展查询词和一个所述候选关键词;
计算每个所述第一匹配对与每个所述第二匹配对的相似度,根据相似度计算结果选择至少一个第一匹配对;
将选择出的每个第一匹配对中的候选关键词确定为目标关键词。


3.根据权利要求1所述的方法,其中,所述从所述多个候选关键词中确定目标关键词,包括:
利用第一筛选规则,从所述多个候选关键词中确定多个第一候选关键词;
利用第二筛选规则,从所述多个候选关键词中确定多个第二候选关键词;
将所述多个第一候选关键词和所述多个第二候选关键词进行求交集运算,将运算结果中包括的候选关键词作为确定出的目标关键词。


4.根据权利要求3所述的方法,其中,所述利用第一筛选规则,从所述多个候选关键词确定出多个第一候选关键词,包括:
将所述原始查询词及所述扩展查询词,分别与所述多个候选关键词组成多个第三匹配对;
将出现在坏例集合中的第三匹配对删除,所述坏例集合中包含多个已经被确定为坏例的匹配对;
将删除后剩余的第三匹配对中的候选关键词确定为第一候选关键词。


5.根据权利要求1所述的方法,其中,所述确定与原始查询词相似的至少一个扩展查询词,包括:
利用预先训练的相似性模型,在数据库中查询与所述原始查询词相似的多个扩展查询词;所述数据库保存扩展查询词正例;
从所述多个扩展查询词中选择至少一个扩展查询词。


6.根据权利要求5所述的方法,其中,所述数据库还保存候选关键词正例,以及每个所述扩展查询词正例与每个所述候选关键词正例的映射关系;
所述根据所述原始查询词和所述扩展查询词,确定多个候选关键词,包括:
利用所述映射关系,确定与所述原始查询词或所述扩展查询词具有映射关系的匹配关键词;
根据所述匹配关键词,利用所述预先训练的相似性模型,得到多个候选关键词。


7.根据权利要求5或6所述的方法,其中,所述相似性模型的训练过程包括:
将查询词样本、与所述查询词样本相似度不低于阈值的正样本以及与所述查询词样本相似度低于阈值的负样本输入待训练的相似性模型;
确定所述相似性模型输出的所述查询词样本与所述正样本的第一差异值,以及所述相似性模型输出的所述查询词样本与所述负样本的第二差异值;
计算第一差异值标注结果与所述第一差异值的第一差值,以及第二差异值标注结果与所述第二差异值的第二差值;
利用所述第一差值和所述第二差值对所述待训练的相似性模型进行训练。


8.一种召回内容的确定装置,包括:
扩展查询词确定模块,用于确定与原始查询词相似的至少一个扩展查询词;
候选关键词确定模块,用于根据所述原始查询词和所述扩展查询词,确定多个候选关键词;
召回内容确定模块,用于从所述多个候选关键词中确定目标关键词,将与所述目标关键词对应的关联信息作为确定出的召回内容,所述目标关键词与所述关联信息的对应关系是预先建立的。


9.根据权利要求8所述的装置,其中,所述召回内容确定模块,包括:
第一匹配对组建子模块,...

【专利技术属性】
技术研发人员:杨新涛连义江
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1