训练相关性模型的方法、计算相关性分数的方法和装置制造方法及图纸

技术编号:42524818 阅读:20 留言:0更新日期:2024-08-27 19:35
本申请公开了一种训练相关性模型的方法、计算相关性分数的方法和装置。训练相关性模型的方法包括:将多个训练搜索词和多个训练标题输入第一编码模型,得到多个第一向量表示;将多个训练文本输入训练后的文本摘要模型,生成文本摘要数据;将文本摘要数据输入第一编码模型,得到多个第二向量表示;使用训练后的数据增强模型,对多个训练搜索词和多个训练文本进行数据标注,得到多个标注数据;使用多个第一向量表示、多个第二向量表示、以及多个标注数据对相关性模型进行训练,得到训练后的相关性模型。本发明专利技术可以提高相关性模型的计算效率,提高相关性模型训练的准确度,精准、高效地计算出搜索词和文本之间的相关性分数。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,特别涉及训练相关性模型的方法、计算相关性分数和装置、存储介质、电子设备。


技术介绍

1、搜索场景中非常重要的一个环节就是计算相关性分数,目前,大多数的计算相关性分数的方法主要包含两种方法:(1)基于树模型的计算方法,主要是采用例如lightgbm模型进行计算,基于树模型的方法一般需要搜索词与文本的多个维度的特征,从而计算搜索词与文本之间的相关性分数。(2)利用bert等预训练模型直接计算搜索词与文本之间的相关性分数。采用预训练模型的一般分为两种方法:第一种为先得到搜索词以及文档的向量表示,之后利用余弦相似度对搜索词与文本的相关性分数进行计算。第二种则是采用微调的方式计算相关性分数,具体的做法是将[query][sep][doc]作为bert模型的输入,之后将bert模型的[cls]位输出进行微调,接入一个全连接的神经网络模型以及交叉熵损失函数,从而得到搜索词与文本之间的相关性分数。

2、现有的两种相关性模型均有一定的缺点,其中,针对树模型的相关性模型的缺点为:(1)这类模型无法通过文本计算搜索词与文本之间的相关性分数本文档来自技高网...

【技术保护点】

1.一种训练相关性模型的方法,用于电子设备,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述文本摘要步骤包括:

3.根据权利要求1所述的方法,其特征在于,所述标注步骤包括:

4.根据权利要求3所述的方法,其特征在于,所述数据增强模型是神经网络模型。

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述第一编码模型是BERT模型,所述相关性模型是BERT模型。

6.一种计算相关性分数的方法,用于电子设备,其特征在于,所述方法包括:

7.一种搜索方法,用于电子设备,其特征在于,所述方法包括...

【技术特征摘要】

1.一种训练相关性模型的方法,用于电子设备,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述文本摘要步骤包括:

3.根据权利要求1所述的方法,其特征在于,所述标注步骤包括:

4.根据权利要求3所述的方法,其特征在于,所述数据增强模型是神经网络模型。

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述第一编码模型是bert模型,所述相关性模型是bert模型。

6.一种计算相关性分数的方法,用于电子设备,其特征在于,所述方法包括:

7.一种搜索方法,用于电子设备,其特征在于,所述方法包括:

8.一种训...

【专利技术属性】
技术研发人员:汪自力
申请(专利权)人:小红书科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1