【技术实现步骤摘要】
查询分析方法及系统、计算机可读存储介质及终端
[0001]本公开涉及机器学习领域,尤其涉及一种查询分析方法及系统、计算机可读存储介质及终端。
技术介绍
[0002]查询分析方法是搜索引擎的一个关键组成部分,它为召回和排序阶段提供指导意义。随着查询分析发现了更多的语义信息,搜索引擎能够更准确地理解用户的信息需求,并相应地为用户提供更满意的搜索结果。近年来,越来越多的研究工作致力于提升查询分析任务的效率。
[0003]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
[0004]本公开的目的在于提供一种查询分析方法,至少在一定程度上克服相关技术中查询分析的效率有待提高的问题。
[0005]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0006]根据本公开的第一个方面,提供一种查询分析方法,上述方法包括:确定待查询语句对应的向量,得到待查询向量;将上述待查询向量输入训练后的第一模型,根据上述第一模型的输出得到伪标题向量,其中,上述伪标题向量包含上述待查询语句的后验检索信息;将上述待查询语句和上述伪标题向量输入训练后的第二模型,根据上述第二模型的输出确定上述待查询语句的目标预测,并基于上述目标预测进行查询分析。
[0007]在本公开一个实施例中,上述第一模型包括第一编码模型和第二编码模型,上述方法包括:获取N个训练样本,第i个训练样本包括 ...
【技术保护点】
【技术特征摘要】
1.一种查询分析方法,其特征在于,包括:确定待查询语句对应的向量,得到待查询向量;将所述待查询向量输入训练后的第一模型,根据所述第一模型的输出得到伪标题向量,其中,所述伪标题向量包含所述待查询语句的后验检索信息;将所述待查询语句和所述伪标题向量输入训练后的第二模型,根据所述第二模型的输出确定所述待查询语句的目标预测,并基于所述目标预测进行查询分析。2.根据权利要求1所述的查询分析方法,其特征在于,所述第一模型包括第一编码模型和第二编码模型,所述方法包括:获取N个训练样本,第i个训练样本包括第i查询语句和所述第i查询语句对应的第i标题集合,N为正整数,i为不大于N的正整数;将所述第i查询语句输入第一编码模型,得到所述第i查询语句对应的第i查询向量;将所述第i标题集合输入第二编码模型,得到所述第i标题集合对应的第i标题向量;根据所述第i查询向量和所述第i标题向量确定所述第一模型的第一损失函数;根据所述第一损失函数优化所述第一编码模型的参数及所述第二编码模型的参数,以确定所述训练后的第一模型。3.根据权利要求2所述的查询分析方法,其特征在于,所述第一损失函数计算方法为:其中,minimize Loss
imi
表示计算所述第一损失函数Loss
imi
的最小化,q
i
为所述第i查询向量,t
i
为所述第i标题向量。4.根据权利要求2所述的查询分析方法,其特征在于,所述将所述待查询向量输入训练后的第一模型,根据所述第一模型的输出得到伪标题向量,包括:将所述待查询向量输入所述训练后的第一模型中的第一编码模型,根据所述第一编码模型的输出得到所述伪标题向量。5.根据权利要求1所述的查询分析方法,其特征在于,所述第一模型包括第三编码模型和序列
‑
序列模型,所述方法还包括:获取N个训练样本,第i个训练样本包括第i查询语句和所述第i查询语句对应的第i标题集合,N为正整数,i为不大于N的正整数;将所述第i查询语句输入所述第三编码模型,得到所述第i查询语句对应的上下文向量;通过所述序列
‑
序列模型中的编码器,得到所述上下文向量对应的一组第一隐藏状态;将所述第一隐藏状态的最后一个隐藏状态作为所述第i查询语句对应的第i伪标题向量;确定所述第i标题集合对应的一组第一概率向量;将所述第一隐藏状态和所述第一概率向量输入所述序列
‑
序列模型中的解码器,根据所述解码器的输出得到一组第二隐藏状态;将所述第二隐藏状态输入归一化指数函数,根据所述归一化指数函数的输出得到一组第二概率向量;
根据所述第一概率向量和所述第二概率向量的交叉熵函数,确定所述第一模型的第二损失函数;根据所述第二损失函数优化所述第三编码模型的参数及所述序列
‑
序列模型的参数,以确定所述训练后的第一模型。6.根据权利要求5所述的查询分析方法,其特征在于,所述第二损失函数计算方法为:其中,minimize Loss
′
imi
表示计算所述第二损失函数Loss
′
imi
的最小化,为所述第i标题集合对应的一组第一概率向量,为所述第i标题集合对应的一组第二概率向量,CE(
·
)为所述交叉熵函数,O为所有所述标题集合的长度,O为正整数,l为不大于O的正整数。7.根据权利要求5所述的查询分析方法,其特征在于,所述将所述待查询向量输入训练后的第一模型,根据所述第一模型的输出得到伪标题向量,包括:将所述待查询向量输入所述训练后的第一模型中的第三编码模型,得到所述待查...
【专利技术属性】
技术研发人员:马雪晴,高一星,魏骁驰,殷大伟,常毅,
申请(专利权)人:吉林大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。