查询分析方法及系统、计算机可读存储介质及终端技术方案

技术编号：34255253 阅读：53 留言：0更新日期：2022-07-24 12:31

本发明专利技术提供了一种查询分析方法及系统、计算机可读存储介质及终端，涉及机器学习领域。其中，该方法包括：确定待查询语句对应的向量，得到待查询向量；将待查询向量输入训练后的第一模型，根据第一模型的输出得到伪标题向量，其中，伪标题向量包含待查询语句的后验检索信息；将待查询语句和伪标题向量输入训练后的第二模型，根据第二模型的输出确定待查询语句的目标预测，并基于目标预测进行查询分析。本技术方案以查询分析中的查询分类方法为例，将后验检索信息引入至先验检索信息场景中，使得分类器性能与之前的查询分类方法相比得到进一步提升，从而使查询分析的性能增强。从而使查询分析的性能增强。从而使查询分析的性能增强。

Query analysis method and system, computer readable storage medium and terminal

全部详细技术资料下载

【技术实现步骤摘要】
查询分析方法及系统、计算机可读存储介质及终端

[0001]本公开涉及机器学习领域，尤其涉及一种查询分析方法及系统、计算机可读存储介质及终端。

技术介绍

[0002]查询分析方法是搜索引擎的一个关键组成部分，它为召回和排序阶段提供指导意义。随着查询分析发现了更多的语义信息，搜索引擎能够更准确地理解用户的信息需求，并相应地为用户提供更满意的搜索结果。近年来，越来越多的研究工作致力于提升查询分析任务的效率。
[0003]需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0004]本公开的目的在于提供一种查询分析方法，至少在一定程度上克服相关技术中查询分析的效率有待提高的问题。
[0005]本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
[0006]根据本公开的第一个方面，提供一种查询分析方法，上述方法包括：确定待查询语句对应的向量，得到待查询向量；将上述待查询向量输入训练后的第一模型，根据上述第一模型的输出得到伪标题向量，其中，上述伪标题向量包含上述待查询语句的后验检索信息；将上述待查询语句和上述伪标题向量输入训练后的第二模型，根据上述第二模型的输出确定上述待查询语句的目标预测，并基于上述目标预测进行查询分析。
[0007]在本公开一个实施例中，上述第一模型包括第一编码模型和第二编码模型，上述方法包括：获取N个训练样本，第i个训练样本包括...

【技术保护点】

【技术特征摘要】
1.一种查询分析方法，其特征在于，包括：确定待查询语句对应的向量，得到待查询向量；将所述待查询向量输入训练后的第一模型，根据所述第一模型的输出得到伪标题向量，其中，所述伪标题向量包含所述待查询语句的后验检索信息；将所述待查询语句和所述伪标题向量输入训练后的第二模型，根据所述第二模型的输出确定所述待查询语句的目标预测，并基于所述目标预测进行查询分析。2.根据权利要求1所述的查询分析方法，其特征在于，所述第一模型包括第一编码模型和第二编码模型，所述方法包括：获取N个训练样本，第i个训练样本包括第i查询语句和所述第i查询语句对应的第i标题集合，N为正整数，i为不大于N的正整数；将所述第i查询语句输入第一编码模型，得到所述第i查询语句对应的第i查询向量；将所述第i标题集合输入第二编码模型，得到所述第i标题集合对应的第i标题向量；根据所述第i查询向量和所述第i标题向量确定所述第一模型的第一损失函数；根据所述第一损失函数优化所述第一编码模型的参数及所述第二编码模型的参数，以确定所述训练后的第一模型。3.根据权利要求2所述的查询分析方法，其特征在于，所述第一损失函数计算方法为：其中，minimize Loss
imi
表示计算所述第一损失函数Loss
imi
的最小化，q
i
为所述第i查询向量，t
i
为所述第i标题向量。4.根据权利要求2所述的查询分析方法，其特征在于，所述将所述待查询向量输入训练后的第一模型，根据所述第一模型的输出得到伪标题向量，包括：将所述待查询向量输入所述训练后的第一模型中的第一编码模型，根据所述第一编码模型的输出得到所述伪标题向量。5.根据权利要求1所述的查询分析方法，其特征在于，所述第一模型包括第三编码模型和序列
‑
序列模型，所述方法还包括：获取N个训练样本，第i个训练样本包括第i查询语句和所述第i查询语句对应的第i标题集合，N为正整数，i为不大于N的正整数；将所述第i查询语句输入所述第三编码模型，得到所述第i查询语句对应的上下文向量；通过所述序列
‑
序列模型中的编码器，得到所述上下文向量对应的一组第一隐藏状态；将所述第一隐藏状态的最后一个隐藏状态作为所述第i查询语句对应的第i伪标题向量；确定所述第i标题集合对应的一组第一概率向量；将所述第一隐藏状态和所述第一概率向量输入所述序列
‑
序列模型中的解码器，根据所述解码器的输出得到一组第二隐藏状态；将所述第二隐藏状态输入归一化指数函数，根据所述归一化指数函数的输出得到一组第二概率向量；
根据所述第一概率向量和所述第二概率向量的交叉熵函数，确定所述第一模型的第二损失函数；根据所述第二损失函数优化所述第三编码模型的参数及所述序列
‑
序列模型的参数，以确定所述训练后的第一模型。6.根据权利要求5所述的查询分析方法，其特征在于，所述第二损失函数计算方法为：其中，minimize Loss
′
imi
表示计算所述第二损失函数Loss
′
imi
的最小化，为所述第i标题集合对应的一组第一概率向量，为所述第i标题集合对应的一组第二概率向量，CE(
·
)为所述交叉熵函数，O为所有所述标题集合的长度，O为正整数，l为不大于O的正整数。7.根据权利要求5所述的查询分析方法，其特征在于，所述将所述待查询向量输入训练后的第一模型，根据所述第一模型的输出得到伪标题向量，包括：将所述待查询向量输入所述训练后的第一模型中的第三编码模型，得到所述待查...

【专利技术属性】
技术研发人员：马雪晴，高一星，魏骁驰，殷大伟，常毅，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人