System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于令牌训练大模型的隐私计算方法、装置、设备及介质制造方法及图纸_技高网

基于令牌训练大模型的隐私计算方法、装置、设备及介质制造方法及图纸

技术编号:40357736 阅读:5 留言:0更新日期:2024-02-09 14:43
本申请公开了基于令牌训练大模型的隐私计算方法、装置、设备及介质,涉及深度学习领域,包括:基于不同的数据词表分别获取各个数据拥有者的隐私文本数据对应的令牌号;将令牌号输入至与令牌号所在的数据拥有者各自对应的大语言模型中的预设向量映射模型,以便预设向量映射模型输出与令牌号对应的文本词向量;利用包含各隐私数据拥有者的隐私文本词向量和公开数据拥有者的公开文本词向量的文本词向量对大语言模型的语言预测模型进行训练,以获取训练后大语言模型。无需隐私数据的暴露也能够对大语言模型的训练,在各方隐私数据不可见的情况下又能将各个隐私数据拥有者中的关于上下词组之间的语法、句法等所有知识学习到大语言模型的模型参数中。

【技术实现步骤摘要】

本专利技术涉及深度学习领域,特别涉及基于令牌训练大模型的隐私计算方法、装置、设备及介质


技术介绍

1、隐私计算,通常方案有多方安全计算、联邦学习和可信安全执行环境。联邦学习是保证隐私数据不暴露的前提下实现模型训练的范式,它的核心想法是“数据不动-模型动”,每个数据拥有者在自己私有的服务器上自己的隐私数据训练模型参数,并定时将模型参数同步给其他用户,这样即保护了自己的隐私数据,又不影响模型的训练。但是使用这种方式训练大语言模型是不现实,原因如下:大语言模型参数量太大,最小的也有几十gb(gigabyte,吉字节),这使得联邦学习在不同机器上分享模型参数变得非常缓慢,导致模型几乎没有办法完成训练。联邦学习需要的机器数量要比不使用联邦学习的算法多很多倍,而训练大语言模型时需要的机器极其昂贵,使用联邦学习无疑会成倍的增加训练成本。

2、综上,如何在各方隐私数据不可见的情况下,实现大语言模型的训练,无需在不同机器上分享参数量巨大的模型参数,减少机器学习所用到的训练成本是本领域有待解决的技术问题。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供基于令牌训练大模型的隐私计算方法、装置、设备及介质,能够在各方隐私数据不可见的情况下,实现大语言模型的训练,无需在不同机器上分享参数量巨大的模型参数,减少机器学习所用到的训练成本。其具体方案如下:

2、第一方面,本申请公开了一种基于令牌训练大模型的隐私计算方法,包括:

3、基于不同的数据词表分别获取各个数据拥有者的隐私文本数据对应的令牌号;

4、将所述令牌号输入至与所述令牌号所在的数据拥有者各自对应的大语言模型中的预设向量映射模型,以便所述预设向量映射模型输出与所述令牌号对应的文本词向量;

5、利用包含各隐私数据拥有者的隐私文本词向量和公开数据拥有者的公开文本词向量的所述文本词向量对所述大语言模型的语言预测模型进行训练,以获取训练后大语言模型。

6、可选的,所述基于不同的数据词表分别获取各个数据拥有者的隐私文本数据对应的令牌号,包括:

7、通过各个隐私数据拥有者对自身的隐私文本数据中的句子文本按照词组进行拆分,以获取各个隐私数据拥有者的隐私词组;按照与各自隐私数据拥有者对应的隐私数据词表分别为所述隐私词组进行词组映射,以获取各个隐私词组对应的加密令牌号;

8、对公开数据拥有者的公开文本数据中的句子文本按照词组进行拆分,以获取公开词组;按照公开数据词表为公开数据拥有者的公开词组进行词组映射,以获取各个公开词组对应的公开令牌号。

9、可选的,所述将所述令牌号输入至与所述令牌号所在的数据拥有者各自对应的大语言模型中的预设向量映射模型,以便所述预设向量映射模型输出与所述令牌号对应的文本词向量,包括:

10、将各个隐私数据拥有者中与词组对应的令牌号输入至与各所述数据拥有者对应的嵌入层模型,以便所述嵌入层模型输出与所述令牌号对应的隐私文本词向量。

11、可选的,所述将各个数据拥有者中与词组对应的令牌号输入至与各所述数据拥有者对应的嵌入层模型,以便所述嵌入层模型输出与所述令牌号对应的文本词向量,包括:

12、按照所述各个隐私数据拥有者的句子文本的词组拆分顺序,将与各隐私词组对应的加密令牌号依次连接生成加密令牌号序列,将所述加密令牌号序列输入至各所述隐私数据拥有者对应的嵌入层模型,以便所述嵌入层模型输出与所述句子文本对应的隐私文本词向量序列。

13、可选的,所述将各个数据拥有者中与词组对应的令牌号输入至与各所述数据拥有者对应的嵌入层模型,以便所述嵌入层模型输出与所述令牌号对应的文本词向量,包括:

14、按照公开数据拥有者的句子文本的词组拆分顺序,将与各所述公开词组对应的公开令牌号依次连接生成公开令牌号序列,将所述公开令牌号序列输入至各所述公开数据拥有者对应的嵌入层模型,以便与所述公开数据拥有者对应的嵌入层模型输出与所述句子文本对应的公开文本词向量序列。

15、可选的,利用包含各隐私数据拥有者的隐私文本词向量和公开数据拥有者的公开文本词向量的所述文本词向量对所述大语言模型的语言预测模型进行训练,以获取训练后大语言模型,包括:

16、将各隐私数据拥有者的隐私文本词向量序列输入大语言模型,以便所述语言预测模型学习各所述隐私数据拥有者的句子文本的知识,以便获取隐私数据训练后大语言模型,用于基于所述隐私数据拥有者的当前隐私文本词向量序列预测下一隐私文本词向量;

17、利用所述公开文本词向量以及与公开文本数据对应的嵌入层模型对所述隐私数据训练后大语言模型进行训练,以便获取训练后大语言模型。

18、可选的,所述将各隐私数据拥有者的隐私文本词向量序列输入大语言模型,以便所述语言预测模型学习各所述隐私数据拥有者的句子文本的知识,以便获取隐私数据训练后大语言模型,包括:

19、将各隐私数据拥有者的隐私文本词向量序列输入大语言模型,以便所述语言预测模型预测下一隐私文本词向量,

20、分别计算所述下一隐私文本词向量与所述嵌入层模型中的所有隐私文本词向量之间的余弦距离,以获取相应的余弦距离结果;

21、以所述余弦距离结果最小为所述语言预测模型的训练目标,对所述语言预测模型进行训练,直至所述余弦距离结果满足预设余弦距离阈值,获取当前语言预测模型作为隐私数据训练后大语言模型。

22、第二方面,本申请公开了一种基于令牌训练大模型的隐私计算装置,包括:

23、令牌号获取模块,用于基于不同的数据词表分别获取各个数据拥有者的隐私文本数据对应的令牌号;

24、向量映射模块,用于将所述令牌号输入至与所述令牌号所在的数据拥有者各自对应的大语言模型中的预设向量映射模型,以便所述预设向量映射模型输出与所述令牌号对应的文本词向量;

25、模型训练模块,用于利用包含的各隐私数据拥有者的隐私文本词向量和公开数据拥有者的公开文本词向量的所述文本词向量对所述大语言模型的语言预测模型进行训练,以获取训练后大语言模型。

26、第三方面,本申请公开了一种电子设备,包括:

27、存储器,用于保存计算机程序;

28、处理器,用于执行所述计算机程序,以实现前述公开的基于令牌训练大模型的隐私计算方法的步骤。

29、第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的基于令牌训练大模型的隐私计算方法的步骤。

30、可见,本申请公开了一种基于令牌训练大模型的隐私计算方法,包括:基于不同的数据词表分别获取各个数据拥有者的隐私文本数据对应的令牌号;将所述令牌号输入至与所述令牌号所在的数据拥有者各自对应的大语言模型中的预设向量映射模型,以便所述预设向量映射模型输出与所述令牌号对应的文本词向量;利用包含各隐私数据拥有者的隐私文本词向量和公开数据拥有者的公开文本词向量本文档来自技高网...

【技术保护点】

1.一种基于令牌训练大模型的隐私计算方法,其特征在于,包括:

2.根据权利要求1所述的基于令牌训练大模型的隐私计算方法,其特征在于,所述基于不同的数据词表分别获取各个数据拥有者的隐私文本数据对应的令牌号,包括:

3.根据权利要求1所述的基于令牌训练大模型的隐私计算方法,其特征在于,所述将所述令牌号输入至与所述令牌号所在的数据拥有者各自对应的大语言模型中的预设向量映射模型,以便所述预设向量映射模型输出与所述令牌号对应的文本词向量,包括:

4.根据权利要求3所述的基于令牌训练大模型的隐私计算方法,其特征在于,所述将各个数据拥有者中与词组对应的令牌号输入至与各所述数据拥有者对应的嵌入层模型,以便所述嵌入层模型输出与所述令牌号对应的文本词向量,包括:

5.根据权利要求3所述的基于令牌训练大模型的隐私计算方法,其特征在于,所述将各个数据拥有者中与词组对应的令牌号输入至与各所述数据拥有者对应的嵌入层模型,以便所述嵌入层模型输出与所述令牌号对应的文本词向量,包括:

6.根据权利要求1至5任一项所述的基于令牌训练大模型的隐私计算方法,其特征在于,所述利用包含各隐私数据拥有者的隐私文本词向量和公开数据拥有者的公开文本词向量的所述文本词向量对所述大语言模型的语言预测模型进行训练,以获取训练后大语言模型,包括:

7.根据权利要求6所述的基于令牌训练大模型的隐私计算方法,其特征在于,所述将各隐私数据拥有者的隐私文本词向量序列输入大语言模型,以便所述语言预测模型学习各所述隐私数据拥有者的句子文本的知识,以便获取隐私数据训练后大语言模型,包括:

8.一种基于令牌训练大模型的隐私计算装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于令牌训练大模型的隐私计算方法的步骤。

...

【技术特征摘要】

1.一种基于令牌训练大模型的隐私计算方法,其特征在于,包括:

2.根据权利要求1所述的基于令牌训练大模型的隐私计算方法,其特征在于,所述基于不同的数据词表分别获取各个数据拥有者的隐私文本数据对应的令牌号,包括:

3.根据权利要求1所述的基于令牌训练大模型的隐私计算方法,其特征在于,所述将所述令牌号输入至与所述令牌号所在的数据拥有者各自对应的大语言模型中的预设向量映射模型,以便所述预设向量映射模型输出与所述令牌号对应的文本词向量,包括:

4.根据权利要求3所述的基于令牌训练大模型的隐私计算方法,其特征在于,所述将各个数据拥有者中与词组对应的令牌号输入至与各所述数据拥有者对应的嵌入层模型,以便所述嵌入层模型输出与所述令牌号对应的文本词向量,包括:

5.根据权利要求3所述的基于令牌训练大模型的隐私计算方法,其特征在于,所述将各个数据拥有者中与词组对应的令牌号输入至与各所述数据拥有者对应的嵌入层模型,以便所...

【专利技术属性】
技术研发人员:邱建华刘伟华严宇
申请(专利权)人:北京智慧眼信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1