System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 自监督模型的训练方法、装置、计算机设备及存储介质制造方法及图纸_技高网

自监督模型的训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:40409830 阅读:11 留言:0更新日期:2024-02-20 22:29
本公开涉及计算机技术领域,涉及一种自监督模型的训练方法、装置、计算机设备及存储介质,包括:获取由内容的文字描述信息构建的第一文本序列的第一训练样本数据和由实体对象的文本描述信息构建的第二文本序列的第二训练样本数据;将第一训练样本数据输入初始自监督模型的第一模型子结构中,输出第一目标向量;将第二训练样本数据输入初始自监督模型的第二模型子结构中,输出第二目标向量;根据第一目标向量和第二目标向量调整损失函数,得到训练后的目标自监督模型。本公开在得到的目标自监督模型的过程中,未要求第一模型子结构和第二模型子结构内的数据需要来自同一领域,建立了跨域联动,得到的目标自监督模型更能刻画出用户集群的兴趣偏好。

【技术实现步骤摘要】

本公开涉及计算机,具体涉及自监督模型的训练方法、装置、计算机设备及存储介质


技术介绍

1、随着自然语言处理和计算机视觉领域的发展,涌现出了以bert(bidirectionalencoder representation from transformers,语言表征模型),gpt(generative pre-trained transformer,生成式预训练模型)为代表的大规模语言模型和以imagenet(用于视觉对象识别软件研究的大型可视化数据库)为代表的各种经典视觉模型,如resnet(deepresidual network,深度残差网络)和visual transformer(视觉自注意力模型),在各自领域都产生了很大的成功,而且实现了通用语言/视觉表征能力,例如bert学好的语言表征可以被应用到各种各样的下游任务。

2、在当前常见的兴趣偏好预测场景中,采用clue(chinese languageunderstanding evaluation,中文语言理解测评基准)模型通过大规模的数据训练,实现对自然语言的理解和生成。该模型的双塔左侧为一个领域的历史特征,右侧是基于该领域的历史特征对当前领域的未来特征的预测。由此可见,clue模型在对未来特征进行预测时由于双塔左侧和右侧均要求是同一领域,因此不能实现跨领域的联动,应用面受限,进而预测结果存在不够准确的缺陷。


技术实现思路

1、有鉴于此,本公开提供了一种自监督模型的训练方法、装置、计算机设备及存储介质,以解决相关技术不能实现跨领域的联动,应用面受限,进而预测结果存在不够准确的缺陷的问题。

2、第一方面,本公开提供了一种自监督模型的训练方法,该方法包括:

3、获取由内容的文字描述信息构建的第一文本序列的第一训练样本数据和由实体对象的文本描述信息构建的第二文本序列的第二训练样本数据;其中,内容为用户集群在第一预设时间段内执行过第一关注行为的内容;实体对象为用户集群在第二预设时间段内执行过第二关注行为的实体对象;第二预设时间段的起始时间同于或者晚于第一预设时间段的起始时间;

4、将第一训练样本数据输入初始自监督模型的第一模型子结构中,输出第一目标向量;

5、将第二训练样本数据输入初始自监督模型的第二模型子结构中,输出第二目标向量;

6、根据第一目标向量和第二目标向量调整损失函数,得到训练后的目标自监督模型。

7、在本公开实施例中,通过获取到用户集群在第一预设时间段内对一些内容执行过第一关注行为而构建的第一训练样本数据,和用户集群在第二预设时间段内对一些实体对象执行过第二关注行为而构建的第二训练样本数据,然后分别将第一训练样本数据输入到第一模型子结构,得到第一目标向量,将第二训练样本数据输入到第二模型子结构,得到第二目标向量,再根据第一目标向量和第二目标向量调整损失函数,进而得到训练后的目标自监督模型,这样本公开实施例在得到的目标自监督模型的过程中,未要求第一模型子结构和第二模型子结构内的数据需要来自同一领域,建立了跨域联动,得到的目标自监督模型更能刻画出用户集群的兴趣偏好,解决了相关技术不能实现跨领域的联动,应用面受限,进而预测结果存在不够准确的缺陷。

8、在一种可选的实施方式中,将第一训练样本数据输入初始自监督模型的第一模型子结构中,输出第一目标向量,包括:

9、对内容的文字描述信息进行分词化处理,得到第一分词信息;

10、根据第一分词信息生成内容的文字描述信息的第一编码;

11、根据第一编码,确定内容的文字描述信息对应的第一向量信息;

12、根据第一向量信息和第一编码模型,得到第一目标向量。

13、在一种可选的实施方式中,根据第一向量信息和第一编码模型,得到第一目标向量,包括:

14、将第一向量信息经过第一编码模型的处理,输出第一编码信息;

15、将第一编码信息经过第一模型子结构中的第一映射层处理,得到用户集群的第一兴趣偏好特征;

16、将用户集群的第一兴趣偏好特征经过第一模型子结构中的第二映射层处理,输出第一目标向量;其中,第一目标向量为对第一兴趣偏好特征经过降维后的特征向量。

17、在本公开实施例中,对内容的文字描述信息对应的第一编码信息经过第一映射层处理,得到第一兴趣偏好特征,再对第一兴趣偏好特征经过第二映射层处理,得到第一目标向量,增强了第一模型子结构的泛化性,同时提高了损失函数的收敛速度,提高计算能力。

18、在一种可选的实施方式中,将第二训练样本数据输入初始自监督模型的第二模型子结构中,输出第二目标向量,包括:

19、对实体对象的文本描述信息进行分词化处理,得到第二分词信息;

20、根据第二分词信息生成实体对象的文本描述信息的第二编码;

21、根据第二编码,确定实体对象的文本描述信息对应的第二向量信息;

22、根据第二向量信息和第二编码模型,得到第二目标向量。

23、在一种可选的实施方式中,根据第二向量信息和第二编码模型,得到第二目标向量,包括:

24、将第二向量信息经过第二编码模型的处理,输出第二编码信息;

25、将第二编码信息经过第二模型子结构中的第一映射层处理,得到用户集群的第二兴趣偏好特征;

26、将用户集群的第二兴趣偏好特征经过第二模型子结构中的第二映射层处理,输出第二目标向量;其中,第二目标向量为对第二兴趣偏好特征经过降维后的特征向量。

27、在本公开实施例中,对实体对象的文本描述信息对应的第二编码信息经过第一映射层处理,得到第二兴趣偏好特征,再对第二兴趣偏好特征经过第二映射层处理,得到第二目标向量,增强了第二模型子结构的泛化性,同时提高了损失函数的收敛速度,提高计算能力。

28、在一种可选的实施方式中,根据第一目标向量和第二目标向量调整损失函数,得到训练后的目标自监督模型,包括:

29、获取第三文本序列的第三训练样本数据,其中,第三训练样本数据包含于第二训练样本数据中;

30、获取第三训练样本数据的权重系数;

31、根据权重系数以及第一目标向量、第二目标向量调整损失函数,得到目标损失函数数值;

32、根据目标损失函数数值调整初始自监督模型的模型参数,得到目标自监督模型。

33、在本公开实施例中,通过计算第三文本序列这些正样本置信度,加强影响力大的正样本的影响力,使得调整后的目标损失函数数值更能得出准确的用户群体的兴趣偏好情况。

34、在一种可选的实施方式中,获取由内容的文字描述信息构建的第一文本序列的第一训练样本数据和由实体对象的文本描述信息构建的第二文本序列的第二训练样本数据,包括:

35、从第一文本序列对应的多个训练样本数据中选取第一预设位的内容的文字描述信息,作为第一训练样本数据;

36、从本文档来自技高网...

【技术保护点】

1.一种自监督模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述第一训练样本数据输入初始自监督模型的第一模型子结构中,输出第一目标向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一向量信息和第一编码模型,得到第一目标向量,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述第二训练样本数据输入初始自监督模型的第二模型子结构中,输出第二目标向量,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述第二向量信息和第二编码模型,得到所述第二目标向量,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述第一目标向量和所述第二目标向量调整损失函数,得到训练后的目标自监督模型,包括:

7.根据权利要求1所述的方法,其特征在于,所述获取由内容的文字描述信息构建的第一文本序列的第一训练样本数据和由实体对象的文本描述信息构建的第二文本序列的第二训练样本数据,包括:

8.一种自监督模型的训练装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的自监督模型的训练方法。

...

【技术特征摘要】

1.一种自监督模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述第一训练样本数据输入初始自监督模型的第一模型子结构中,输出第一目标向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一向量信息和第一编码模型,得到第一目标向量,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述第二训练样本数据输入初始自监督模型的第二模型子结构中,输出第二目标向量,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述第二向量信息和第二编码模型,得到所述第二目标向量,包括:

6.根据权...

【专利技术属性】
技术研发人员:马璐
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1