用于搜索场景的文本相似度计算方法及双塔模型训练方法技术

技术编号:37505040 阅读:51 留言:0更新日期:2023-05-07 09:41
本公开公开了一种用于搜索场景的文本相似度计算方法及双塔模型训练方法,涉及计算机技术领域,进一步涉及深度学习及自然语言处理领域。具体实现方案为:获取搜索请求中的第一查询文本,并获取待处理资源的第一资源文本;其中,待处理资源为基于搜索请求召回的资源;分别在第一查询文本和第一资源文本中添加提示信息,得到第二查询文本和第二资源文本;分别对第二查询文本和第二资源文本进行语义信息提取,得到第二查询文本的第一语义向量和第二资源文本的第二语义向量;根据第一语义向量和第二语义向量,计算查询文本与资源文本之间的相似度。可在一定程度上解决因模型输入数据结构差异带来的语义丢失问题,提升模型性能。提升模型性能。提升模型性能。

【技术实现步骤摘要】
用于搜索场景的文本相似度计算方法及双塔模型训练方法


[0001]本公开涉及计算机
,进一步涉及深度学习及自然语言处理领域,尤其涉及一种用于搜索场景的文本相似度计算方法及双塔模型训练方法。

技术介绍

[0002]在搜索场景中,当用户输入查询文本时,往往需要向用户展示相关度更高的搜索结果。例如,在广告搜索场景中,通过相关性模型获得查询文本与候选搜索结果之间的相关性,以此筛选出能够满足用户需求的优质广告内容。因此,如何提高文本之间的相似度计算的准确度,成为本领域的重要的研究方向之一。

技术实现思路

[0003]本公开提供了一种用于搜索场景的文本相似度计算方法及双塔模型训练方法。
[0004]根据本公开的第一方面,提供了一种用于搜索场景的文本相似度计算方法,包括:
[0005]获取搜索请求中的第一查询文本,并获取待处理资源的第一资源文本;其中,所述待处理资源为基于所述搜索请求召回的资源;
[0006]分别在所述第一查询文本和所述第一资源文本中添加提示信息,得到第二查询文本和第二资源文本;
[0007本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于搜索场景的文本相似度计算方法,包括:获取搜索请求中的第一查询文本,并获取待处理资源的第一资源文本;其中,所述待处理资源为基于所述搜索请求召回的资源;分别在所述第一查询文本和所述第一资源文本中添加提示信息,得到第二查询文本和第二资源文本;分别对所述第二查询文本和所述第二资源文本进行语义信息提取,得到所述第二查询文本的第一语义向量和所述第二资源文本的第二语义向量;根据所述第一语义向量和所述第二语义向量,计算所述查询文本与所述资源文本之间的相似度。2.如权利要求1所述的方法,其中,所述分别对所述第二查询文本和所述第二资源文本进行语义信息提取,得到所述第二查询文本的第一语义向量和所述第二资源文本的第二语义向量,包括:对所述第二查询文本进行标记化,并在所述标记化过程中,在所述第二查询文本的句首设置[CLS]标志位,在所述第二查询文本之中所述第一查询文本的句尾和所述提示信息的句尾均设置[SEP]标志位,得到所述第二查询文本的标记化结果;对所述第二资源文本进行标记化,并在所述标记化过程中,在所述第二资源文本的句首设置[CLS]标志位,在所述第二资源文本之中所述第一资源文本的句尾和所述提示信息的句尾均设置[SEP]标志位,得到所述第二资源文本的标记化结果;根据所述第二查询文本的标记化结果对所述第二查询文本进行语义信息提取,得到所述第二查询文本的第一语义向量,并根据所述第二资源文本的标记化结果对所述第二资源文本进行语义信息提取,得到所述第二资源文本的第二语义向量。3.如权利要求2所述的方法,其中,所述根据所述第二查询文本的标记化结果对所述第二查询文本进行语义信息提取,得到所述第二查询文本的第一语义向量,并根据所述第二资源文本的标记化结果对所述第二资源文本进行语义信息提取,得到所述第二资源文本的第二语义向量,包括:将所述第二查询文本的标记化结果输入至预先训练的双塔模型中第一塔形网络进行语义信息提取,得到所述第二查询文本的第一语义向量;其中,所述双塔模型用于计算语义相似度任务;将所述第二资源文本的标记化结果输入至所述双塔模型中第二塔形网络进行语义信息提取,得到所述第二资源文本的第二语义向量。4.如权利要求3所述的方法,其中,所述将所述第二查询文本的标记化结果输入至预先训练的双塔模型中第一塔形网络进行语义信息提取,得到所述第二查询文本的第一语义向量,包括:基于所述第一塔形网络中的嵌入单元对所述第二查询文本的标记化结果进行嵌入计算,得到所述第二查询文本的第一文本向量;基于所述第一塔形网络中的语义提取单元和所述第一文本向量对所述第二查询文本进行语义信息提取,并根据所述第二查询文本之中所述提示信息的语义向量生成所述第二查询文本的第一语义向量。5.如权利要求3所述的方法,其中,所述将所述第二资源文本的标记化结果输入至所述
双塔模型中第二塔形网络进行语义信息提取,得到所述第二资源文本的第二语义向量,包括:基于所述第二塔形网络中的嵌入单元对所述第二资源文本的标记化结果进行嵌入计算,得到所述第二资源文本的第二文本向量;基于所述第二塔形网络中的语义提取单元和所述第二文本向量对所述第二资源文本进行语义信息提取,并根据所述第二资源文本之中所述提示信息的语义向量生成所述第二资源文本的第二语义向量。6.如权利要求1至5中任一项所述的方法,其中,所述提示信息包括N个提示槽虚拟标志位[MASK],其中所述N为正整数。7.一种双塔模型训练方法,其中,所述双塔模型用于在搜索场景中计算文本语义相似度任务,所述方法包括:获取训练数据,所述训练数据包括第一文本样本对和所述第一文本样本对的标签;其中,所述第一文本样本对包括第一文本和第二文本;在所述第一文本中添加提示信息,得到第三文本,并在所述第二文本中添加提示信息,得到第四文本;分别对所述第三文本和所述第四文本进行标记化处理,得到所述双塔模型的模型输入,并根据所述模型输入和所述标签对所述双塔模型进行训练。8.如权利要求7所述的方法,其中,所述分别对所述第三文本和所述第四文本进行标记化处理,得到所述双塔模型的模型输入,包括:对所述第三文本进行标记化,并在所述标记化过程中,在所述第三文本的句首设置[CLS]标志位,在所述第三文本之中所述第一文本的句尾和所述提示信息的句尾均设置[SEP]标志位,得到所述第三文本的标记化结果;对所述第四文本进行标记化,并在所述标记化过程中,在所述第四文本的句首设置[CLS]标志位,在所述第四文本之中所述第二文本的句尾和所述提示信息的句尾均设置[SEP]标志位,得到所述第四文本的标记化结果;将所述第三文本的标记化结果和所述第四文本的标记化结果作为所述双塔模型的模型输入。9.如权利要求8所述的方法,其中,所述根据所述模型输入和所述标签对所述双塔模型进行训练,包括:将所述第三文本的标记化结果输入至所述双塔模型中第一塔形网络,得到所述第一塔形网络输出的所述第三文本之中所述提示信息的语义向量;将所述第四文本的标记化结果输入至所述双塔模型中第二塔形网络,得到所述第二塔形网络输出的所述第四文本之中所述提示信息的语义向量;将所述第三文本之中所述提示信息的语义向量和所述第四文本之中所述提示信息的语义向量输入至所述双塔模型中语义相似度计算单元,得到所述第一文本和所述第二文本之间的相似度;根据所述相似度和所述标签,生成所述双塔模型的损失值,并根据所述损失值对所述双塔模型进行训练。10.如权利要求7至9中任一项所述的方法,其中,所述提示信息包括N个提示槽虚拟标
志位[MASK],其中所述N为正整数。11.一种用于搜索场景的文本相似度计算装置,包括:第一获取模块,用于获取搜索请求中的第一查询文...

【专利技术属性】
技术研发人员:丁斌叶超殷硕张爽邓涛曾晨李双龙孙琳刘林
申请(专利权)人:百度时代网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1