查询处理模型的生成方法、装置及电子设备制造方法及图纸

技术编号:32511680 阅读:16 留言:0更新日期:2022-03-02 10:57
本申请公开了查询处理模型的生成方法、装置及电子设备,其中,所述方法包括:对历史查询数据进行会话分割,确定会话分割数据;基于所述会话分割数据进行筛选以提取目标查询;确定目标查询之间的相似度关系,根据所述相似度关系构造训练样本集;基于所构造的所述训练样本集,对预置学习模型进行训练获得目标模型。通过该方法可以高效的自动构造训练样本集,训练更准确的查询处理模型,应用目标模型以提高查询改写得到的相似查询的准确性。询改写得到的相似查询的准确性。询改写得到的相似查询的准确性。

【技术实现步骤摘要】
查询处理模型的生成方法、装置及电子设备


[0001]本专利技术涉及搜索引擎
,特别查询处理模型的生成方法、装置及电子设备。

技术介绍

[0002]搜索引擎可以根据用户输入的查询query检索和返回相应的文档以向用户提供满足其查询需求的信息,满足人们在海量信息中进行检索的需求,如今搜索引擎成为许多用户使用互联网的门户入口和必备工具,而随着互联网信息量以及访问互联网的终端设备都出现爆发式的增长,搜索引擎技术也在不断进行着改进和创新,以适应新的形势和变化下的需求。除了要适应搜索数量的不断增长,对于搜索质量的提升也是搜索引擎需要考虑的重要方面,例如,如何根据用户提出的查询条件准确确定和反馈与查询条件相关的文档,尽量少的返回不相关的文档,使查询所提出的问题能够得到快速解决,是高质量搜索的直观衡量;另一方面,如何分析用户的查询请求,根据用户输入的查询文本充分和准确的理解用户的查询意图,是针对查询有效地召回文档的基础。
[0003]一些方面的因素影响着搜索引擎对于用户输入的查询query的准确理解,从而影响着召回准确的搜索结果,例如,用户输入的查询词通常比较精炼,在多数情况下只包含一到两个词汇,因而很难根据查询精确地判断搜索意图究竟是该查询词的哪个方面,比如用户输入“浏览器”进行查询时,可能的意图可以包括浏览器下载、浏览器知识、移动端浏览器app安装方法,浏览器评测等等方面,搜索引擎在无法确定用户的具体意图时,只能按照一定的策略返回内容,但无法保证召回的文档能够快速地满足查询需求。查询词语偏短、查询描述艰涩、自然语言语义复杂、一词多义、用户表述不准确、以及输入错误等等问题,都会造成搜索意图的理解困难,即无法通过输入的查询准确理解查询意图,难以与有效文档构成匹配,如此形成查询与文档之间的语义鸿沟,也就无法获得满意的查询结果。可见,以理解用户输入的查询意图为目标的查询分析是搜索引擎非常重要的功能和组成,对于搜索意图分析的优劣直接影响着搜索结果的覆盖率和相关性。
[0004]在现有技术中,确定查询意图可以有多种方式,例如提供查询建议、进行查询扩展、查询改写等。其中,查询改写的过程是根据原始输入的查询,通过一定的方法获得一定数量的相似查询,进而使用相似查询与原始输入的查询一并进行搜索,以获得更加丰富和准确文档集合。然而,在现有技术中,进行查询改写的方法还有待改进以克服不足,例如,基于同义词的query拓展方法中,依赖人工先验的同义词表,易出现召回少甚至无召回的情况,无法解决query和文档间的语义鸿沟的问题,而一些基于算法模型的查询改写技术,其自动化程度不够高,或者由于实现方式比较机械,运行过程中仍需大量的人工标注或无关结果的纠错处理,对搜索意图理解的准确性也有待进一步提升。

技术实现思路

[0005]本专利技术实施例提供了查询处理模型的生成方法、装置及电子设备,能够高效的自动构造训练样本集,训练更准确的查询处理模型,在查询改写时得到更准确的相似查询。
[0006]本专利技术提供了如下方案:
[0007]一种查询处理模型的生成方法,包括:
[0008]对历史查询数据进行会话分割,确定会话分割数据;
[0009]基于所述会话分割数据进行筛选以提取目标查询;
[0010]确定目标查询之间的相似度关系,根据所述相似度关系构造训练样本集;
[0011]基于所构造的所述训练样本集,对预置学习模型进行训练获得目标模型。
[0012]一种查询的处理方法,包括:
[0013]接收用户搜索使用的用户查询;
[0014]使用目标模型确定所述用户查询的相似查询,其中,所述目标模型通过以下方式获得:
[0015]对历史查询数据进行会话分割以确定会话分割数据;
[0016]基于所述会话分割数据进行筛选以提取目标查询;
[0017]确定目标查询之间的相似度关系,根据所述相似度关系构造训练样本集,基于所述训练样本集对预置学习模型进行训练获得目标模型;
[0018]根据所述相似查询对所述用户查询进行查询改写,以基于各所述相似查询进行检索,获取各所述相似查询相应的搜索结果并返回。
[0019]一种训练查询改写模型的方法,包括:
[0020]基于历史查询数据进行会话分割,确定会话分割数据;
[0021]对所述历史查询数据中的历史查询进行向量嵌入,确定所述历史查询的特征向量;
[0022]基于所述会话分割数据对历史查询进行筛选以提取目标查询;
[0023]根据目标查询的特征向量确定目标查询之间的相似度关系,根据目标查询之间的相似度关系构造Triplet三元组形式的训练样本集;
[0024]基于所构造的所述训练样本集,应用度量学习方法,对预置的BERT预训练模型进行训练获得目标模型。
[0025]一种电子设备,包括:
[0026]一个或多个处理器;以及
[0027]与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述任一项所述的方法的步骤。
[0028]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述的方法的步骤。
[0029]根据本申请提供的具体实施例,本申请公开了以下技术效果:
[0030]通过本申请提供的查询处理模型的生成方法,可以对历史查询数据进行会话分割,确定会话分割数据;基于会话分割数据进行筛选以提取目标查询;确定目标查询之间的相似度关系,根据相似度关系构造训练样本集;基于所构造的训练样本集,对预置学习模型进行训练获得目标模型。通过该方法,对会话分割数据进行了筛选,提取出其中的优质的高贡献的目标查询,基于高质量、高贡献的目标查询,可以高了样本数据的准确性,从而能够实现更优质的模型训练以及提高用于召回的查询表达准确性。该方法还可以根据目标查询之间的相似度关系自动化的构造训练样本集,相比较为学习样本人工标注的传统方式,提
高训练样本的构造效率。进一步的,可以对历史查询数据进行语义和时间角度上的会话分割,提升了分割的精确效果,而引入度量学习的方法的学习模型训练,提升了目标模型的准确性,进而还可以在查询改写中进行更加准确的查询召回,多维查询向量的引入进一步使得召回查询更加丰富和准确。
[0031]当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
[0032]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1是本申请实施例提供的方法的应用示意图;
[0034]图2是本申请实施例提供的第一方法的流程图;
[0035]图3是本申请实施例提供的第二方法的流程图;
[0036]图4是本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种查询处理模型的生成方法,其特征在于,包括:对历史查询数据进行会话分割,确定会话分割数据;基于所述会话分割数据进行筛选以提取目标查询;确定目标查询之间的相似度关系,根据所述相似度关系构造训练样本集;基于所构造的所述训练样本集,对预置学习模型进行训练获得目标模型。2.根据权利要求1所述的方法,其特征在于,还包括:对所述历史查询数据中的历史查询进行向量嵌入,确定所述历史查询的特征向量。3.根据权利要求2所述的方法,其特征在于,所述历史查询数据包括各历史查询相应的查询时间,所述对历史查询数据进行会话分割,确定会话分割数据,包括:根据各历史查询的特征向量以及所述查询时间,对所述历史查询数据进行语义和时间分割,确定所述会话分割数据。4.根据权利要求1所述的方法,其特征在于,所述历史查询数据包括点击行为信息,所述基于所述会话分割数据进行筛选以提取目标查询,包括:根据所述点击行为信息,确定所述会话分割数据中的最后一个查询是否对应有点击行为,如果有则确定所述最后一个查询为所述目标查询。5.根据权利要求4所述的方法,其特征在于,还包括:根据所述目标查询的点击行为是否对应的相同的目标文档,对所述目标查询进行去重。6.根据权利要求2所述的方法,其特征在于,所述确定目标查询之间的相似度关系,根据所述相似度关系构造训练样本集,包括:根据所述目标查询的特性向量计算目标查询之间的相似度关系;对于一个目标查询,确定其它目标查询与该目标查询相似度,按照与该目标查询的相似度对所述其它目标查询进行排序,将排序内预置区间的其它目标查询确定为负样本;以该目标查询为锚,以与该目标查询位于相同会话分割数据内的历史查询作为正样本,构造所述锚与正样本以及负样本的三元组,将所述三元组确定为所述训练样本集中的样本。7.根据权利要求6所述的方法,其特征在于,所述基于所构造的所述训练样本集,对预置学习模型进行训练获得目标模型,包括:基于所构造的所述训练样本集,应用度量学习方法进行训练,以使目标模型中的正样本间的距离减小,增加与负样本的距离。8.根据权利要求1至7任一项所述的方法,其特征在于,还包括:在获得所...

【专利技术属性】
技术研发人员:王佳楷王淑军
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1