System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 相关度模型数据处理方法、装置、计算机设备和存储介质制造方法及图纸_技高网

相关度模型数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:40415612 阅读:8 留言:0更新日期:2024-02-20 22:32
本申请涉及一种相关度模型数据处理方法、装置、计算机设备和存储介质。方法涉及机器学习领域,包括:获取相关性样本组;基于相对等级标记,得到相关性样本组中相关性样本之间的等级比较结果,构建样本对数据;来对预训练相关性识别模型进行微调训练,得到样本对数据的各类损失参数;基于损失参数,对预训练相关性识别模型进行参数调整处理,得到目标相关度模型。本申请通过标注等级比较结果,来对样本对进行标注,只需完成相对等级标注,即可构造出大量的模型训练数据。而且在预训练模型的基础上来完成对相关度模型的训练,可以有效地减少相关度模型训练过程所需的样本量,从而减少相关度模型训练过程中存储占用。

【技术实现步骤摘要】

本申请涉及计算机,特别是涉及一种相关度模型数据处理方法、装置、计算机设备、存储介质和计算机程序产品。


技术介绍

1、随着计算机技术的发展,出现了人工智能(artificial intelligence, ai)技术,它是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。目前,可以通过人工智能技术来进行相关性判定,进行根据判定结果实现在搜索、推荐、相似度等业务应用场景下的相关数据处理。目前的相关性量化及预测主要采用基于分类的方法,将相关的样本设定为1,不相关的样本设定为0,利用交叉熵等损失函数,训练分类模型,判断样本是否与特定场景下目标相关,最终根据归一化的后概率值作为相关程度的量化得分,这种反复最终所得到的概率值并不能直接反应相关程度。

2、目前,为了精准识别出输入数据的相关度,可以通过人工标注的方式来对样本的相关度进行一一标注,进而构建出模型训练数据,完成对相关度模型的训练,然而这种模型训练方式,需要构造出大量带标注的相关度样本数据,因此在模型训练过程中会占用大量的存储器空间。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够有效减少相关度模型训练过程中存储占用的相关度模型数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种相关度模型数据处理方法,包括:

3、获取相关性样本组,所述相关性样本组内包含多个相关性样本和所述相关性样本之间的相对等级标记;

4、基于所述相对等级标记,得到所述相关性样本组中相关性样本之间的等级比较结果,构建带等级比较结果标记的样本对数据;

5、通过所述样本对数据对预训练相关性识别模型进行微调训练,得到所述样本对数据的比较损失参数、相等损失参数和得分损失参数,所述预训练相关性识别模型由带二分类标记的相关性样本训练得到;

6、基于所述比较损失参数、所述相等损失参数和所述得分损失参数,对所述预训练相关性识别模型进行参数调整处理,得到目标相关度模型。

7、第二方面,本申请还提供了一种相关度模型数据处理装置,包括:

8、样本数据获取模块,用于获取相关性样本组,所述相关性样本组内包含多个相关性样本和所述相关性样本之间的相对等级标记;

9、样本对构建模块,用于基于所述相对等级标记,得到所述相关性样本组中相关性样本之间的等级比较结果,构建带等级比较结果标记的样本对数据;

10、损失识别模块,用于通过所述样本对数据对预训练相关性识别模型进行微调训练,得到所述样本对数据的比较损失参数、相等损失参数和得分损失参数,所述预训练相关性识别模型由带二分类标记的相关性样本训练得到;

11、参数调整模块,用于基于所述比较损失参数、所述相等损失参数和所述得分损失参数,对所述预训练相关性识别模型进行参数调整处理,得到目标相关度模型。

12、第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

13、获取相关性样本组,所述相关性样本组内包含多个相关性样本和所述相关性样本之间的相对等级标记;

14、基于所述相对等级标记,得到所述相关性样本组中相关性样本之间的等级比较结果,构建带等级比较结果标记的样本对数据;

15、通过所述样本对数据对预训练相关性识别模型进行微调训练,得到所述样本对数据的比较损失参数、相等损失参数和得分损失参数,所述预训练相关性识别模型由带二分类标记的相关性样本训练得到;

16、基于所述比较损失参数、所述相等损失参数和所述得分损失参数,对所述预训练相关性识别模型进行参数调整处理,得到目标相关度模型。

17、第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

18、获取相关性样本组,所述相关性样本组内包含多个相关性样本和所述相关性样本之间的相对等级标记;

19、基于所述相对等级标记,得到所述相关性样本组中相关性样本之间的等级比较结果,构建带等级比较结果标记的样本对数据;

20、通过所述样本对数据对预训练相关性识别模型进行微调训练,得到所述样本对数据的比较损失参数、相等损失参数和得分损失参数,所述预训练相关性识别模型由带二分类标记的相关性样本训练得到;

21、基于所述比较损失参数、所述相等损失参数和所述得分损失参数,对所述预训练相关性识别模型进行参数调整处理,得到目标相关度模型。

22、第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

23、获取相关性样本组,所述相关性样本组内包含多个相关性样本和所述相关性样本之间的相对等级标记;

24、基于所述相对等级标记,得到所述相关性样本组中相关性样本之间的等级比较结果,构建带等级比较结果标记的样本对数据;

25、通过所述样本对数据对预训练相关性识别模型进行微调训练,得到所述样本对数据的比较损失参数、相等损失参数和得分损失参数,所述预训练相关性识别模型由带二分类标记的相关性样本训练得到;

26、基于所述比较损失参数、所述相等损失参数和所述得分损失参数,对所述预训练相关性识别模型进行参数调整处理,得到目标相关度模型。

27、上述相关度模型数据处理方法、装置、计算机设备、存储介质和计算机程序产品,其通过在二分类预训练所得到相关性识别模型的基础上,通过标注样本组内的相关性相对等级,从而获得样本两两之间相关性高低的顺序,并根据排序所得到样本对数据来微调预训练相关性识别模型,完成对目标相关度模型的训练,目标相关度模型预测得到的分数越高,代表着相关性越高。通过标注样本组内相关性样本之间的等级比较结果,来对样本对进行标注,只需完成对样本组内的相对等级标注,即可构造出大量的模型训练数据。而且在预训练相关性识别模型的基础上来完成对相关度模型的训练,可以在保证相关度识别准确性的基础上,有效地减少相关度模型训练过程所需的样本量,从而减少相关度模型训练过程中存储占用。

本文档来自技高网...

【技术保护点】

1.一种相关度模型数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述相对等级标记,得到所述相关性样本组中相关性样本之间的等级比较结果,构建带等级比较结果标记的样本对数据包括:

3.根据权利要求1所述的方法,其特征在于,所述通过所述样本对数据对预训练相关性识别模型进行微调训练,得到所述样本对数据的比较损失参数、相等损失参数和得分损失参数包括:

4.根据权利要求3所述的方法,其特征在于,所述等级比较结果标记包括相等标记和不等标记;

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1至5任意一项所述的方法,其特征在于,所述基于所述比较损失参数、所述相等损失参数和所述得分损失参数,对所述预训练相关性识别模型进行参数调整处理,得到目标相关度模型包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述比较损失参数、所述相等损失参数和所述得分损失参数,对所述预训练相关性识别模型中的可调参数进行参数调整处理,得到目标相关度模型包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述比较损失参数、所述相等损失参数和所述得分损失参数确定总体损失包括:

9.根据权利要求6所述的方法,其特征在于,所述基于所述参数调整配置信息确定所述预训练相关性识别模型中的固定参数和可调参数包括:

10.根据权利要求1所述的方法,其特征在于,所述目标相关度模型包括图文相关度模型;

11.根据权利要求1所述的方法,其特征在于,所述目标相关度模型包括图像排序模型;

12.一种相关度模型数据处理装置,其特征在于,所述装置包括:

13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种相关度模型数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述相对等级标记,得到所述相关性样本组中相关性样本之间的等级比较结果,构建带等级比较结果标记的样本对数据包括:

3.根据权利要求1所述的方法,其特征在于,所述通过所述样本对数据对预训练相关性识别模型进行微调训练,得到所述样本对数据的比较损失参数、相等损失参数和得分损失参数包括:

4.根据权利要求3所述的方法,其特征在于,所述等级比较结果标记包括相等标记和不等标记;

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1至5任意一项所述的方法,其特征在于,所述基于所述比较损失参数、所述相等损失参数和所述得分损失参数,对所述预训练相关性识别模型进行参数调整处理,得到目标相关度模型包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述比较损失参数、所述相等损失参数和所述得分损失参数,对所述预训练相关性识别模型中的可调参数进行参数调整处理,得到目标相关度模型包括:

【专利技术属性】
技术研发人员:康昇汪翔
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1