一种基于可信执行环境的大语言模型联邦预训练方法技术

技术编号：40577678 阅读：4 留言：0更新日期：2024-03-06 17:19

本发明专利技术公开了一种基于可信执行环境的大语言模型联邦预训练方法，包括以下步骤：步骤1：创建大语言模型联合预训练任务，确定联合建模参与方，准备数据，并创建用于联合建模的计算存储网络资源；步骤2：进行大语言模型的联合预训练；步骤3：对联合预训练得到的大语言模型进行优化。以应用于大语言模型预训练多方联邦建模的实际场景，充分利用RDMA和CXL技术，在分布式环境中构建跨域可信执行环境集群，并为内存划分共享区域和私有区域，通过将共享区域形成大内存，使其可以容纳大语言模型及其训练数据以及中间训练结果，克服大模型大数据规模下的可信建模通信瓶颈和资源利用不足问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大语言模型联邦预训练，具体涉及一种基于可信执行环境的大语言模型联邦预训练方法。

技术介绍

1、在当今人工智能飞速发展的背景下，自然语言处理作为人工智能重要的方向，已经在各个领域展现了广泛的应用前景，如机器翻译、情感分析、智能对话、文本生成等应用前景愈加广泛，并持续赋能推动医疗、金融、政务等产业发展。

2、预训练大模型作为自然语言处理的关键技术，通过在大规模数据上进行预训练，使模型能够学习丰富的语言知识和模式，为各类下游任务提供了强大的支持。然而，这一技术也面临着一系列严峻挑战，这些挑战不仅仅涉及技术方面，更关乎数据隐私、计算效率和安全性等多个关键领域的问题。

3、首先，大语言模型的预训练所需的数据规模庞大，涵盖多个数据源和数据拥有者，这些数据可能包含敏感信息，如个人隐私和商业机密，因此如何在多方合作的情况下进行大模型训练，保障数据隐私成为至关重要的问题，以免数据泄露和滥用。

4、其次，大语言模型预训练过程需要庞大的存储空间，比如用于训练的数据集存储、大语言模型的存储以及训练中间结果的存储，对计算和存储资源提出了高要求，资源受限情况下可能导致训练速度下降甚至无法满足训练需求。同时，gpu加速在nlp大语言模型的训练中具有重要作用，然而gpu的可信性受到挑战，可能会引入安全风险，需要解决如何确保gpu的可信性和安全性。此外，大语言模型预训练的过程时间较长，节点失效和异常中断可能导致训练过程中断，加之数据全部存储在内存中，中间数据丢失风险显著。

5、大语言模型基于 tran

6、在这种情况下，如何充分利用可信执行环境（tee）、compute express link（cxl）技术以及远程直接内存访问（rdma）等前沿技术，结合密钥管理、加密传输和数据隔离等手段，针对大语言模型预训练场景，在合规的前提下进行多方联合高效建模成为亟需解决的问题。

技术实现思路

1、为了克服上述现有技术存在的不足，本专利技术的目的在于提供一种基于可信执行环境的大语言模型联邦预训练方法，以应用于大语言模型预训练多方联邦建模的实际场景，充分利用rdma和cxl技术，在分布式环境中构建跨域可信执行环境（tee）集群，并为内存划分共享区域和私有区域，通过将共享区域形成大内存，使其可以容纳大语言模型及其训练数据以及中间训练结果，克服大模型大数据规模下的可信建模通信瓶颈和资源利用不足问题。

2、为了实现上述目的，本专利技术采用的技术方案是：

3、一种基于可信执行环境的大语言模型联邦预训练方法，包括以下步骤：

4、步骤1、创建大语言模型联合预训练任务，确定联合建模参与方，准备数据，并创建用于联合建模的计算存储网络资源；

5、步骤2、进行大语言模型的联合预训练；

6、步骤3、对联合预训练得到的大语言模型进行优化。

7、所述步骤1具体包括以下步骤：

8、步骤101、确认预训练任务：定义大语言模型预训练的具体任务，包括大语言模型的初始参数配置和训练数据的要求；

9、步骤102、确定联合建模参与方：确定所述参与大语言模型联合预训练的各联合建模参与方，包括大语言模型的拥有者和数据提供者；

10、步骤103、构建跨域tee集群：在分布式环境中，搭建跨域的可信执行环境（tee）集群，各个联合建模参与方启动tee管理节点，在tee规划共享区域、私有区域以及gpu资源，并将访问权限信息加载到fpga中，用于控制rdma和cxl的访问；

11、步骤104、设置全局时钟：引入全局时钟，作为统一的时间标尺，为所有联合建模参与方分发n个随机数种子，确保时间的一致性和数据的安全性；

12、步骤105、加密和mac认证：大语言模型联邦预训练任务发起方选取随机种子获取全局时钟生成密钥，将初始模型进行加密，同时生成mac消息认证码，并将加密后的初始模型和相关标识信息放入共享内存区域，为模型分发做准备；

13、所述共享内存区域划分成私有区域和共享的公共区域，私有区域当中存放参与联邦建模联合建模参与方的私有数据，为敏感数据，这些数据是不出域的；共享的公共区域用于非敏感数据、建模过程中的元数据、全局模型参数以及公共数据集的高效快速共享；

14、步骤106、训练数据加载和处理：各所述联合建模参与方根据数据敏感性，将数据加载到tee的私有区域和共享区域，对数据进行token化处理形成向量表示，并获取全局时钟，选取本地随机种子对共享区域的数据进行加密，以增强数据的保密性；

15、步骤107、数据聚合和混淆：所述任务发起方对tee共享区域的数据进行聚合，根据对元数据标识的随机数种子序号以及全局时钟生成密钥，并利用密钥将数据进行解密，再进行数据混淆，模糊其数据来源，通过获取全局时钟，选取本地随机种子重新对共享区域的数据进行加密，生成公共数据集，并存储于共享内存区域中；

16、所述步骤107中具体包括：

17、数据聚合：任务发起方从各个联合建模参与方的tee共享区域获取数据（这些数据是经过预处理的、token化的、加密的向量表示），任务发起方使用全局时钟和元数据标识的随机数种子序号生成密钥，使用生成的密钥，任务发起方对从各个tee获取的数据进行解密，这一步将原始的、加密的数据还原为其原始状态；

18、数据混淆：在解密的基础上，任务发起方对数据进行混淆（混淆的目的是模糊数据的来源，增加数据的隐私性），混淆过程可以采用不同的技术，可以通过采样的方式将其进行混淆，也可以采用去重的方式全部混合到一起，可以采用加入一些噪声、对数据进行扰动或采用其他随机性引入的技术。

19、再加密：混淆后的数据被重新加密，再次使用全局时钟和任务发起方本地的随机种子生成新的密钥，加密确保了混淆后的数据在存储过程中的安全性，同时仍然能够在下一步中被解密并用于模型的进一步训练。

20、生成了公共数据集：处理完的、混淆后的并重新加密的数据被组合成一个公共数据集。（公共数据集是一个包含了来自不同联合建模参与方的信息的集合，但由于混淆的存在，其中的个体数据的具体来源已经变得不明确。公共数据集被存储在共享内存区域中，以便其他联合建模参与方可以访问和使用。）

21、这个步骤的目标是确保在联邦预训练中，数据能够在不暴露个体隐私的前提下进行合作建模。加密和混淆的过程在数据的传输和存储过程中提供了额外的安全性，同时通过聚合这些数据，模型本文档来自技高网...

【技术保护点】

1.一种基于可信执行环境的大语言模型联邦预训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于可信执行环境的大语言模型联邦预训练方法，其特征在于，所述步骤1具体包括以下步骤：

3.根据权利要求2所述的一种基于可信执行环境的大语言模型联邦预训练方法，其特征在于，所述步骤107具体包括；

4.根据权利要求2所述的一种基于可信执行环境的大语言模型联邦预训练方法，其特征在于，所述步骤2具体包括以下步骤：

5.根据权利要求4所述的一种基于可信执行环境的大语言模型联邦预训练方法，其特征在于，所述FPGA控制器实现GPU可信化以及TEE与外部的安全通信和权限认证，FPGA控制器包括TPM芯片管理、RDMA内存共享、CXL安全通信；

6.根据权利要求4所述的一种基于可信执行环境的大语言模型联邦预训练方法，其特征在于，所述步骤3具体包括以下步骤；

【技术特征摘要】

1.一种基于可信执行环境的大语言模型联邦预训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于可信执行环境的大语言模型联邦预训练方法，其特征在于，所述步骤1具体包括以下步骤：

3.根据权利要求2所述的一种基于可信执行环境的大语言模型联邦预训练方法，其特征在于，所述步骤107具体包括；

4.根据权利要求2所述的一种基于可信执行环境的大语言模型联邦预训练方...

【专利技术属性】
技术研发人员：罗清彩，李辉，孙善宝，王亚宁，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人