System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于联邦大模型的表格数据处理方法及相关设备技术_技高网

基于联邦大模型的表格数据处理方法及相关设备技术

技术编号:40548132 阅读:7 留言:0更新日期:2024-03-05 19:06
本申请公开一种基于联邦大模型的表格数据处理方法及相关设备,方法包括:对第一表格数据进行预处理,得到第二表格数据;将第二表格数据进行序列化处理,得到n‑1个序列文本;使用LLM分词器对n‑1个序列文本中的每一序列文本进行分词处理,得到多个分词集,将多个分词集中的每一分词集转换成token形式,得到多个token,并通过预设字典获取多个token中每一token对应的token‑ID,得到多个token‑ID;根据多个分词集和多个token‑ID对本地模型进行优化处理,得到目标模型参数,通过云端将目标模型参数以及其他设备上传的模型参数进行安全聚合,将安全聚合后的全局模型参数下发给电子设备。

【技术实现步骤摘要】

本申请涉及隐私计算以及计算机,具体涉及一种基于联邦大模型的表格数据处理方法及相关设备


技术介绍

1、大语言模型(large language model,llm)在文本领域取得了巨大的成功。传统的深度学习方法在表格数据领域的分类任务上表现不如强大的传统基线方法(如梯度提升树),而llm在这个领域中,大型预训练模型被证明是实现卓越性能的关键。目前的大模型是在公域的大量非格式化文本数据集上训练的,针对私域的格式化表格(csv、excel)数据缺乏对应的处理和应用,llm是在非格式化的文本数据预训练得到,无法直接应用到表格数据上,因此,如何将llm应用在表格数据的问题亟待解决。


技术实现思路

1、本申请实施例提供了一种基于联邦大模型的表格数据处理方法及相关设备,可以将llm应用在表格数据上,且提升模型精度。

2、第一方面,本申请实施例提供一种基于联邦大模型的表格数据处理方法,应用于电子设备,所述电子设备包括针对目标业务场景的本地模型,所述方法包括:

3、获取与所述目标业务场景对应的第一表格数据,所述第一表格数据包括n行数据,所述n行数据包括1行特征类型数据和n-1行特征数据,所述1行特征类型数据包括m个特征类型,n行特征数据中每一行特征数据包括m个特征数据,每一特征数据对应一个特征类型;

4、对所述第一表格数据进行预处理,得到第二表格数据;

5、将所述第二表格数据进行序列化处理,得到n-1个序列文本,所述n-1行特征数据中每一行特征数据对应一个序列文本;

6、使用llm分词器对所述n-1个序列文本中的每一序列文本进行分词处理,得到多个分词集,将所述多个分词集中的每一分词集转换成token的形式,得到多个token,并通过预设字典获取所述多个token中每一token对应的token-id,得到多个token-id;

7、根据所述多个分词集和所述多个token-id对所述本地模型进行优化处理,得到目标本地模型,获取所述目标本地模型的目标模型参数,将所述目标模型参数上传给云端,通过所述云端将所述目标模型参数以及其他设备上传的模型参数进行安全聚合,并将安全聚合后的全局模型参数下发给所述电子设备;

8、通过所述全局模型参数更新所述目标本地模型的模型参数。

9、第二方面,本申请实施例提供一种基于联邦大模型的表格数据处理装置,应用于电子设备,所述电子设备包括针对目标业务场景的本地模型,所述装置包括:获取单元、预处理单元、序列化处理单元、分词处理单元、优化单元和更新单元,其中,

10、所述获取单元,用于获取与所述目标业务场景对应的第一表格数据,所述第一表格数据包括n行数据,所述n行数据包括1行特征类型数据和n-1行特征数据,所述1行特征类型数据包括m个特征类型,n行特征数据中每一行特征数据包括m个特征数据,每一特征数据对应一个特征类型;

11、所述预处理单元,用于对所述第一表格数据进行预处理,得到第二表格数据;

12、所述序列化处理单元,用于将所述第二表格数据进行序列化处理,得到n-1个序列文本,所述n-1行特征数据中每一行特征数据对应一个序列文本;

13、所述分词处理单元,用于使用llm分词器对所述n-1个序列文本中的每一序列文本进行分词处理,得到多个分词集,将所述多个分词集中的每一分词集转换成token的形式,得到多个token,并通过预设字典获取所述多个token中每一token对应的token-id,得到多个token-id;

14、所述优化单元,用于根据所述多个分词集和所述多个token-id对所述本地模型进行优化处理,得到目标本地模型,获取所述目标本地模型的目标模型参数,将所述目标模型参数上传给云端,通过所述云端将所述目标模型参数以及其他设备上传的模型参数进行安全聚合,并将安全聚合后的全局模型参数下发给所述电子设备;

15、所述更新单元,用于通过所述全局模型参数更新所述目标本地模型的模型参数。

16、第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面中的步骤的指令。

17、第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

18、第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

19、实施本申请实施例,具备如下有益效果:

20、可以看出,本申请实施例中所描述的基于联邦大模型的表格数据处理方法及相关设备,应用于电子设备,电子设备包括针对目标业务场景的本地模型,获取与目标业务场景对应的第一表格数据,第一表格数据包括n行数据,n行数据包括1行特征类型数据和n-1行特征数据,1行特征类型数据包括m个特征类型,n行特征数据中每一行特征数据包括m个特征数据,每一特征数据对应一个特征类型,对第一表格数据进行预处理,得到第二表格数据,将第二表格数据进行序列化处理,得到n-1个序列文本,n-1行特征数据中每一行特征数据对应一个序列文本,使用llm分词器对n-1个序列文本中的每一序列文本进行分词处理,得到多个分词集,将多个分词集中的每一分词集转换成token的形式,得到多个token,并通过预设字典获取多个token中每一token对应的token-id,得到多个token-id,根据多个分词集和多个token-id对本地模型进行优化处理,得到目标本地模型,获取目标本地模型的目标模型参数,将目标模型参数上传给云端,通过云端将目标模型参数以及其他设备上传的模型参数进行安全聚合,并将安全聚合后的全局模型参数下发给电子设备,通过全局模型参数更新目标本地模型的模型参数,其一,可以利用大模型的先验知识编码能力和少样本学习能力对表格数据进行建模,充分挖掘私域表格数据价值,其二,该框架适应范围广,通过该表格转文本的序列化方法可以对所有的表格数据进行序列化;其三,框架易扩展,可以自由选择不同的大模型进行微调或者精调,微调可以自由选择高效参数微调方法,扩展性强,可以根据需求、效果进行配置;其四,联邦聚合模块实行安全聚合算法保证数据、模型安全。

本文档来自技高网...

【技术保护点】

1.一种基于联邦大模型的表格数据处理方法,其特征在于,应用于电子设备,所述电子设备包括针对目标业务场景的本地模型,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述第一表格数据进行预处理,得到第二表格数据,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述将所述第二表格数据进行序列化处理,得到n-1个序列文本,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1或2所述的方法,其特征在于,所述获取与所述目标业务场景对应的第一表格数据,包括:

6.一种基于联邦大模型的表格数据处理装置,其特征在于,应用于电子设备,所述电子设备包括针对目标业务场景的本地模型,所述装置包括:获取单元、预处理单元、序列化处理单元、分词处理单元、优化单元和更新单元,其中,

7.根据权利要求6所述的装置,其特征在于,在所述对所述第一表格数据进行预处理,得到第二表格数据方面,所述预处理单元具体用于:

8.根据权利要求6或7所述的装置,其特征在于,在所述将所述第二表格数据进行序列化处理,得到n-1个序列文本方面,所述序列化处理单元具体用于:

9.一种电子设备,其特征在于,包括处理器、存储器,所述存储器用于存储一个或多个程序,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-5任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-5任一项所述的方法。

...

【技术特征摘要】

1.一种基于联邦大模型的表格数据处理方法,其特征在于,应用于电子设备,所述电子设备包括针对目标业务场景的本地模型,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述第一表格数据进行预处理,得到第二表格数据,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述将所述第二表格数据进行序列化处理,得到n-1个序列文本,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1或2所述的方法,其特征在于,所述获取与所述目标业务场景对应的第一表格数据,包括:

6.一种基于联邦大模型的表格数据处理装置,其特征在于,应用于电子设备,所述电子设备包括针对目标业务场景的本地模型,所述装置包括:获取单元、预处...

【专利技术属性】
技术研发人员:李振飞黄一珉王湾湾何浩姚明
申请(专利权)人:深圳市洞见智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1