查询处理模型的生成方法、装置及电子设备制造方法及图纸

技术编号：32511680 阅读：16 留言：0更新日期：2022-03-02 10:57

本申请公开了查询处理模型的生成方法、装置及电子设备，其中，所述方法包括：对历史查询数据进行会话分割，确定会话分割数据；基于所述会话分割数据进行筛选以提取目标查询；确定目标查询之间的相似度关系，根据所述相似度关系构造训练样本集；基于所构造的所述训练样本集，对预置学习模型进行训练获得目标模型。通过该方法可以高效的自动构造训练样本集，训练更准确的查询处理模型，应用目标模型以提高查询改写得到的相似查询的准确性。询改写得到的相似查询的准确性。询改写得到的相似查询的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
查询处理模型的生成方法、装置及电子设备

[0001]本专利技术涉及搜索引擎
，特别查询处理模型的生成方法、装置及电子设备。

技术介绍

[0002]搜索引擎可以根据用户输入的查询query检索和返回相应的文档以向用户提供满足其查询需求的信息，满足人们在海量信息中进行检索的需求，如今搜索引擎成为许多用户使用互联网的门户入口和必备工具，而随着互联网信息量以及访问互联网的终端设备都出现爆发式的增长，搜索引擎技术也在不断进行着改进和创新，以适应新的形势和变化下的需求。除了要适应搜索数量的不断增长，对于搜索质量的提升也是搜索引擎需要考虑的重要方面，例如，如何根据用户提出的查询条件准确确定和反馈与查询条件相关的文档，尽量少的返回不相关的文档，使查询所提出的问题能够得到快速解决，是高质量搜索的直观衡量；另一方面，如何分析用户的查询请求，根据用户输入的查询文本充分和准确的理解用户的查询意图，是针对查询有效地召回文档的基础。
[0003]一些方面的因素影响着搜索引擎对于用户输入的查询query的准确理解，从而影响着召回准确的搜索结果，例如，用户输入的查询词通常比较精炼，在多数情况下只包含一到两个词汇，因而很难根据查询精确地判断搜索意图究竟是该查询词的哪个方面，比如用户输入“浏览器”进行查询时，可能的意图可以包括浏览器下载、浏览器知识、移动端浏览器app安装方法，浏览器评测等等方面，搜索引擎在无法确定用户的具体意图时，只能按照一定的策略返回内容，但无法保证召回的文档能够快速地满足查询需求。查询词语偏短、查询描述艰涩、自然语言...

【技术保护点】

【技术特征摘要】
1.一种查询处理模型的生成方法，其特征在于，包括：对历史查询数据进行会话分割，确定会话分割数据；基于所述会话分割数据进行筛选以提取目标查询；确定目标查询之间的相似度关系，根据所述相似度关系构造训练样本集；基于所构造的所述训练样本集，对预置学习模型进行训练获得目标模型。2.根据权利要求1所述的方法，其特征在于，还包括：对所述历史查询数据中的历史查询进行向量嵌入，确定所述历史查询的特征向量。3.根据权利要求2所述的方法，其特征在于，所述历史查询数据包括各历史查询相应的查询时间，所述对历史查询数据进行会话分割，确定会话分割数据，包括：根据各历史查询的特征向量以及所述查询时间，对所述历史查询数据进行语义和时间分割，确定所述会话分割数据。4.根据权利要求1所述的方法，其特征在于，所述历史查询数据包括点击行为信息，所述基于所述会话分割数据进行筛选以提取目标查询，包括：根据所述点击行为信息，确定所述会话分割数据中的最后一个查询是否对应有点击行为，如果有则确定所述最后一个查询为所述目标查询。5.根据权利要求4所述的方法，其特征在于，还包括：根据所述目标查询的点击行为是否对应的相同的目标文档，对所述目标查询进行去重。6.根据权利要求2所述的方法，其特征在于，所述确定目标查询之间的相似度关系，根据所述相似度关系构造训练样本集，包括：根据所述目标查询的特性向量计算目标查询之间的相似度关系；对于一个目标查询，确定其它目标查询与该目标查询相似度，按照与该目标查询的相似度对所述其它目标查询进行排序，将排序内预置区间的其它目标查询确定为负样本；以该目标查询为锚，以与该目标查询位于相同会话分割数据内的历史查询作为正样本，构造所述锚与正样本以及负样本的三元组，将所述三元组确定为所述训练样本集中的样本。7.根据权利要求6所述的方法，其特征在于，所述基于所构造的所述训练样本集，对预置学习模型进行训练获得目标模型，包括：基于所构造的所述训练样本集，应用度量学习方法进行训练，以使目标模型中的正样本间的距离减小，增加与负样本的距离。8.根据权利要求1至7任一项所述的方法，其特征在于，还包括：在获得所...

【专利技术属性】
技术研发人员：王佳楷，王淑军，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人