问题召回方法、装置、设备及存储介质制造方法及图纸

技术编号:38337094 阅读:13 留言:0更新日期:2023-08-02 09:17
本发明专利技术属于搜索引擎技术领域,公开了一种问题召回方法、装置、设备及存储介质。该方法包括:确定目标查询问题对应的语义向量特征;根据所述语义向量特征得到对应的待召回语义向量集;根据所述待召回语义向量集确定召回问题,以完成问题召回。通过上述方式,实现了对查询问题准确召回。本发明专利技术通过计算查询问题的语义向量特征,匹配语义相同的问题进行召回,准确的捕捉用户的搜索意图,将语义相近但字面不匹配的结果也可以进行准确召回,提高了召回的准确性的同时,提升了召回率。提升了召回率。提升了召回率。

【技术实现步骤摘要】
问题召回方法、装置、设备及存储介质


[0001]本专利技术涉及搜索引擎
,尤其涉及一种问题召回方法、装置、设备及存储介质。

技术介绍

[0002]搜索任务中,从用户Query(查询语句)中准确计算出用户的搜索意图以及准确表征文档的语义是非常困难的。现有搜索算法主要通过关键词匹配结合倒排索引的方法进行检索,泛化性能有限,很难将语义相近但字面不匹配的结果准确召回,影响了最终效果。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供一种问题召回方法、装置、设备及存储介质,旨在解决现有技术搜索任务中无法准确计算出用户的搜索意图的技术问题。
[0005]为实现上述目的,本专利技术提供了一种问题召回方法,所述方法包括以下步骤:
[0006]确定目标查询问题对应的语义向量特征;
[0007]根据所述语义向量特征得到对应的待召回语义向量集;
[0008]根据所述待召回语义向量集确定召回问题,以完成问题召回。
[0009]可选的,所述根据所述语义向量特征得到对应的待召回语义向量集,包括:
[0010]根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。
[0011]可选的,所述根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集之前,还包括:
[0012]获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;
[0013]根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;
[0014]根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据的比值大于或等于第一正样本数据与第一负样本数据的比值;
[0015]根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。
[0016]可选的,所述获取第一训练数据之前,还包括:
[0017]根据预设问答数据集确定普通样本;
[0018]获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;
[0019]根据所述采样网络地址信息确定多个关联查询信息;
[0020]根据各所述关联查询信息得到困难样本;
[0021]根据所述普通样本和困难样本生成第一训练数据。
[0022]可选的,所述根据各所述关联查询信息得到困难样本,包括:
[0023]根据所述关联查询信息确定查询信息对;
[0024]确定所述查询信息对的点击信息;
[0025]根据所述点击信息对查询信息对进行筛选得到有效查询信息对;
[0026]根据所述查询信息对生成困难样本。
[0027]可选的,所述根据各所述关联查询信息得到困难样本,包括:
[0028]根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果;
[0029]确定各所述查询结果的点击率;
[0030]根据所述点击率确定有效查询结果;
[0031]根据所述目标查询文本和有效查询结果生成困难样本。
[0032]可选的,所述根据所述点击率确定有效查询结果,包括:
[0033]获取当前查询文本应的查询结果数量;
[0034]根据所述查询结果数量和查询结果的点击率确定有效查询结果。
[0035]可选的,所述根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型,包括:
[0036]将所述第一训练数据带入初始语义召回模型,得到语义召回表征;
[0037]根据所述语义向量表征计算损失值;
[0038]根据所述损失值调整初始语义召回模型直至模型收敛,得到待优化语义模型。
[0039]可选的,所述根据所述待召回语义向量集确定召回问题,以完成问题召回,包括:
[0040]根据所述目标查询问题进行关键词分析,得到关键词信息;
[0041]根据所述关键词信息得到备选召回问题;
[0042]根据所述语义向量集和所述备选召回问题确定召回问题,以完成问题召回。
[0043]可选的,所述根据所述待召回语义向量集确定召回问题,以完成问题召回,包括:
[0044]根据所述语义向量特征和待召回语义向量特征集匹配预设向量特征库,得到语义向量特征对应的第一待召回问题和待召回语义向量特征集对应的第二待召回问题;
[0045]根据所述第一待召回问题和第二待召回问题确定召回问题,以完成问题召回。
[0046]此外,为实现上述目的,本专利技术还提出一种问题召回装置,所述问题召回装置包括:
[0047]确定模块,用于确定目标查询问题对应的语义向量特征;
[0048]处理模块,用于根据所述语义向量特征得到对应的待召回语义向量集;
[0049]所述处理模块,还用于根据所述待召回语义向量集确定召回问题,以完成问题召回。
[0050]可选的,所述处理模块,还用于根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。
[0051]可选的,所述处理模块,还用于获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;
[0052]根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;
[0053]根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据
的比值大于或等于第一正样本数据与第一负样本数据的比值;
[0054]根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。
[0055]可选的,所述处理模块,还用于根据预设问答数据集确定普通样本;
[0056]获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;
[0057]根据所述采样网络地址信息确定多个关联查询信息;
[0058]根据各所述关联查询信息得到困难样本;
[0059]根据所述普通样本和困难样本生成第一训练数据。
[0060]可选的,所述处理模块,还用于根据所述关联查询信息确定查询信息对;
[0061]确定所述查询信息对的点击信息;
[0062]根据所述点击信息对查询信息对进行筛选得到有效查询信息对;
[0063]根据所述查询信息对生成困难样本。
[0064]可选的,所述处理模块,还用于根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果;
[0065]确定各所述查询结果的点击率;
[0066]根据所述点击率确定有效查询结果;
[0067]根据所述目标查询文本和有效查询结果生成困难样本。
[0068本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问题召回方法,其特征在于,所述问题召回方法包括:确定目标查询问题对应的语义向量特征;根据所述语义向量特征得到对应的待召回语义向量集;根据所述待召回语义向量集确定召回问题,以完成问题召回。2.如权利要求1所述的方法,其特征在于,所述根据所述语义向量特征得到对应的待召回语义向量集,包括:根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。3.如权利要求2所述的方法,其特征在于,所述根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集之前,还包括:获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据的比值大于或等于第一正样本数据与第一负样本数据的比值;根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。4.如权利要求3所述的方法,其特征在于,所述获取第一训练数据之前,还包括:根据预设问答数据集确定普通样本;获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;根据所述采样网络地址信息确定多个关联查询信息;根据各所述关联查询信息得到困难样本;根据所述普通样本和困难样本生成第一训练数据。5.如权利要求4所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:纪兴光
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1