搜索内容排序方法、装置、存储介质和电子设备制造方法及图纸

技术编号:26763032 阅读:38 留言:0更新日期:2020-12-18 23:19
本公开涉及一种搜索内容排序方法、装置、存储介质和电子设备,该方法包括:通过预先训练后的语义相关性模型,确定搜索词对应的每个搜索内容与该搜索词的相关性得分;根据相关性得分对多个搜索内容进行排序;语义相关性模型的训练过程包括:通过多个搜索词样本和根据用户针对于每个搜索词样本对应的多个搜索内容的历史操作行为确定的第一搜索内容样本对语言模型进行预训练,以及,通过多个搜索词样本和每个搜索词样本对应的两个附带用于表征搜索内容样本是否与搜索词样本相关的标签的第二搜索内容样本对预训练语言模型进行微调。能够通过预训练和微调的语义相关性模型确定搜索内容的相关性得分,拓宽语义相关性模型的使用范围并减小标注成本。

【技术实现步骤摘要】
搜索内容排序方法、装置、存储介质和电子设备
本公开涉及搜索
,具体地,涉及一种搜索内容排序方法、装置、存储介质和电子设备。
技术介绍
搜索平台可以根据用户输入的关键词(下文称Query)向用户推荐若干搜索结果(下文称Document)。搜索结果需要在排序之后行程搜索结果列表展示给用户,因此,搜索结果排序的准确性直接影响平台的效果。其中,文本语义相关性是排序中的核心因素之一,与搜索体验直接挂钩。判别文本语义相关性是为了计算搜索词和搜索内容的相关程度,即判断搜索内容是否满足用户的搜索需求。判别搜索词和搜索内容的相关性是搜索系统所需的功能之一。
技术实现思路
本公开的主要目的是提供一种搜索内容排序方法、装置、存储介质和电子设备,以解决相关技术中相关性模型适用范围小标注成本高的技术问题。为了实现上述目的,本公开第一方面提供一种搜索内容排序方法,所述方法包括:根据接收到的目标搜索词,通过预先训练后的语义相关性模型,确定所述目标搜索词对应的每个搜索内容与所述目标搜索词的相关性得分;根据所述相关性得分对所述目本文档来自技高网...

【技术保护点】
1.一种搜索内容排序方法,其特征在于,所述方法包括:/n根据接收到的目标搜索词,通过预先训练后的语义相关性模型,确定所述目标搜索词对应的每个搜索内容与所述目标搜索词的相关性得分;/n根据所述相关性得分对所述目标搜索词对应的多个所述搜索内容进行排序;其中,所述语义相关性模型是通过预设训练过程对预设语言模型进行训练后获取到的,所述预设训练过程包括:通过多个搜索词样本和根据用户针对于每个所述搜索词样本对应的多个搜索内容的历史操作行为确定的第一搜索内容样本对所述预设语言模型进行预训练的第一训练过程,以及,通过多个搜索词样本和每个所述搜索词样本对应的两个附带标签的第二搜索内容样本对预训练后的预设语言模型...

【技术特征摘要】
1.一种搜索内容排序方法,其特征在于,所述方法包括:
根据接收到的目标搜索词,通过预先训练后的语义相关性模型,确定所述目标搜索词对应的每个搜索内容与所述目标搜索词的相关性得分;
根据所述相关性得分对所述目标搜索词对应的多个所述搜索内容进行排序;其中,所述语义相关性模型是通过预设训练过程对预设语言模型进行训练后获取到的,所述预设训练过程包括:通过多个搜索词样本和根据用户针对于每个所述搜索词样本对应的多个搜索内容的历史操作行为确定的第一搜索内容样本对所述预设语言模型进行预训练的第一训练过程,以及,通过多个搜索词样本和每个所述搜索词样本对应的两个附带标签的第二搜索内容样本对预训练后的预设语言模型进行微调的第二训练过程,所述标签用于表征所述第二搜索内容样本是否与所述搜索词样本相关。


2.根据权利要求1所述的方法,其特征在于,在所述根据接收到的目标搜索词,通过预先训练后的语义相关性模型,确定所述目标搜索词对应的每个搜索内容与所述目标搜索词的相关性得分之前,所述方法还包括:
通过所述多个搜索词样本和所述第一搜索内容样本执行所述第一训练过程;
在所述第一训练过程完成后,通过所述多个搜索词样本和所述第二搜索内容样本执行所述第二训练过程,以生成所述语义相关性模型。


3.根据权利要求2所述的方法,其特征在于,所述第一搜索内容样本,包括:正相关搜索内容和负相关搜索内容,其中,用户对所述正相关搜索内容存在历史操作行为,用户对所述负相关搜索内容不存在历史操作行为,所述通过所述多个搜索词样本和所述第一搜索内容样本执行所述第一训练过程,包括:
根据所述历史操作行为从所述多个搜索内容中确定所述正相关搜索内容和所述负相关搜索内容;
针对于每个所述搜索词样本,根据所述搜索词样本和所述搜索词样本对应的多个正相关搜索内容和多个负相关搜索内容,以获取多个预训练样本;其中,每个所述预训练样本包括:由依次排列的所述搜索词样本、所述正相关搜索内容和所述负相关搜索内容组成的正样本,以及,由依次排列的所述搜索词样本、所述负相关搜索内容和所述正相关搜索内容组成的负样本;
通过每个所述搜索词样本对应的多个预训练样本对所述预设语言模型进行预训练,以完成所述第一训练过程。


4.根据权利要求2所述的方法,其特征在于,所述通过所述多个搜索词样本和所述第二搜索内容样本执行所述第二训练过程,以生成所述语义相关性模型,包括:
针对每个所述搜索词样本,获取所述搜索词样本对应的两个附带标签的第二搜索内容样本,所述标签包括:用于表征所述第二搜索内容样本与所述搜索词样本相关的第一标签,以及,用于表征所述第二搜索内容样本与所述搜索词样本不相关的第二标签;
将所述搜索词样本、附带所述第一标签的第二搜索内容样本以及附带所述第二标签的第二搜索内容样本组成的三元组作为微调训练样本;
将每个所述搜索词样本对应的微调训练样本作为经过预训练的预设语言模型的输入,以完成所述第二训练过程,生成所述语义相关性模型。


5.根据权利要求4所述的方法,其特征在于,所述预设语言模型包括:输入层、上下文语义表征层和具备预设损失函数的匹配层,所述将每个所述搜索词样本对应的微调训练样本作为经过预训练的预设语言模型的输入,以完成所述第二训练过程,生成所述语义相关性模型,包括:
通过所述输入层获取所述微调训练样本对应的目标向量,所述目标向量为所述微调训练样本中包含的文本序列的词嵌入向量、分段嵌入向量和位置嵌入向量三者的和;
通过所述上下文语义表征层,根据所述目标向量,获取所述搜索词样本与附带所述第一标签的第二搜索内容样本的第一相关性得分,以及,所述搜索词样本与附带所述第二标签的第二搜索内容样本的第二相关性得分;
通过每个所述微调训练样本对应的所述第一相关性得分和所述第二相关性得分对所述预设损失函数的预设梯度进行迭代更新,以完成所述第二训练过程,生成所述语义相关性模型;
其中,所述预设梯度为:


其中,i表示附带所述第一标签的第二搜索内容样本,j表示附带所述第二标签的第二搜索内容样本,表示所述预设梯度,表示所述第一相关性得分,表示所述第二相关性得分,σ为预设参数,ΔNDCG表示所述两个第二搜索内容样本交换搜索排序位置后归一化折损累计增益NDCG值的变化量。


6.一种搜索内容排序装置,其特征在于,所述装置包括:
相关...

【专利技术属性】
技术研发人员:杨扬王金刚步佳昊周翔李勇张富峥陈胜仙云森王仲远
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1