System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据的处理方法、模型的处理方法、装置及设备制造方法及图纸_技高网

数据的处理方法、模型的处理方法、装置及设备制造方法及图纸

技术编号:41374526 阅读:4 留言:0更新日期:2024-05-20 10:18
本申请提供一种数据的处理方法、模型的处理方法、装置及设备。该方法通过对收集的初始数据集进行安全转换处理,安全转换处理包括脱敏处理,增加随机噪声和/或几何形变,对经过安全转换处理后的数据进行数据标注。标注好的训练数据集用于进行模型训练,而模型训练和模型装载都部署在内网环境下,进行模型训练和模型装载过程需要通过通讯代理转发授权请求到云端服务器,云端服务器进行授权。通过该数据的处理方法和模型的处理方法可有效防止数据标注环节的原始数据泄露和模型训练环节数据的泄露,同时也可以避免模型在没有通过授权情况下被滥用。

【技术实现步骤摘要】

本申请涉及人工智能的深度学习,尤其涉及一种数据的处理方法、模型的处理方法、装置及设备


技术介绍

1、深度学习为代表的人工智能技术非常依赖于训练数据的规模和质量。因此,将数据、算法、算力、人力这些资源进行充分共享和融合,才能促使人工智能技术的快速发展和落地。

2、这些资源通常由不同的所有方所拥有,大家在共享资源时存在顾虑。需求方所拥有的数据是自己的核心资产,将这些数据交给其他方进行标注和训练存在很大的数据泄露风险。而模型训练方法和训练好的算法模型作为ai开发商的核心资产,同样存在算法模型泄露被无限使用的风险。

3、因此,在多方合作过程中造成的数据泄露是人工智能技术发展的重要阻碍。


技术实现思路

1、本申请提供一种数据的处理方法、模型的处理方法、装置及设备,用以解决在各方合作进行深度学习过程中的数据泄露问题。

2、第一方面,本申请实施例可提供一种数据的处理方法,包括:

3、通过数据采集装置获取采集得到的初始数据集,所述初始数据集中包括多个用户的原始真实数据;

4、对所述初始数据集进行安全转换处理,得到处理后的预处理数据集,所述预处理数据集中的数据不包括敏感信息,且与原始真实数据不同;

5、将所述预处理数据集发送至标注设备,以对所述预处理数据集中的数据进行标注处理,得到用于进行模型训练的训练数据集。

6、结合第一方面,在一些实施例中,所述对所述初始数据集进行安全转换处理,得到处理后的预处理数据集,包括:

7、对所述初始数据集中的多个用户的原始真实数据进行脱敏处理,剔除与模型训练无关的敏感信息;

8、对脱敏处理后的数据增加随机噪声和/或几何形变,得到所述预处理数据集;

9、其中,所述安全转换处理包括:脱敏处理,增加随机噪声和/或几何形变。

10、结合第一方面,在一些实施例中,所述对脱敏处理后的数据增加随机噪声和/或几何形变之后,所述方法还包括:

11、在增加随机噪声和/或几何形变之后的数据中添加水印,所述水印用于识别该数据的来源。

12、第二方面,本申请实施例还可提供一种模型的处理方法,包括:

13、接收通信代理设备发送的模型训练请求,所述模型训练请求中包括训练请求方的身份信息;

14、根据所述模型训练请求中的所述训练请求方的身份信息,对所述训练请求方进行身份验证和授权,得到第一授权结果,所述第一授权结果用于指示是否允许所述训练请求方在内网环境中利用预先获取的训练数据集进行模型训练;

15、通过所述通信代理设备将所述第一授权结果发送至所述训练请求方的设备。

16、结合第二方面,在某些实施例中,所述方法还包括:

17、接收所述通信代理设备发送的模型装载请求,所述模型装载请求中包括模型使用方的身份信息;

18、根据所述模型装载请求中的所述模型使用方的身份信息,对所述模型使用方进行身份验证和授权,得到第二授权结果,所述第二授权结果用于指示是否允许所述模型使用方在内网环境中使用训练得到的模型;

19、通过所述通信代理设备将所述第二授权结果发送至所述模型使用方的设备。

20、第三方面,本申请实施例还可提供一种数据的处理装置,包括:

21、获取模块,用于数据采集装置获取采集得到的初始数据集,所述初始数据集中包括多个用户的原始真实数据;

22、处理模块,用于对所述初始数据集进行安全转换处理,得到处理后的预处理数据集,所述预处理数据集中的数据不包括敏感信息,且与原始真实数据不同;

23、发送模块,用于将所述预处理数据集发送至标注设备,以对所述预处理数据集中的数据进行标注处理,得到用于进行模型训练的训练数据集。

24、结合第三方面,某些实施例中,所述处理模块具体用于:

25、对所述初始数据集中的多个用户的原始真实数据进行脱敏处理,剔除与模型训练无关的敏感信息;

26、对脱敏处理后的数据增加随机噪声和/或几何形变,得到所述预处理数据集;

27、其中,所述安全转换处理包括:脱敏处理,增加随机噪声和/或几何形变。

28、结合第三方面,某些实施例中,所述处理模块还用于:

29、在增加随机噪声和/或几何形变之后的数据中添加水印,所述水印用于识别该数据的来源。

30、第四方面,本申请实施例还可提供一种模型的处理装置,包括:

31、接收模块,用于接收通信代理设备发送的模型训练请求,所述模型训练请求中包括训练请求方的身份信息;

32、处理模块,用于根据所述模型训练请求中的所述训练请求方的身份信息,对所述训练请求方进行身份验证和授权,得到第一授权结果,所述第一授权结果用于指示是否允许所述训练请求方在内网环境中利用预先获取的训练数据集进行模型训练;

33、发送模块,用于通过所述通信代理设备将所述第一授权结果发送至所述训练请求方的设备。

34、结合第四方面,在一些实施例中:

35、所述接收模块还用于接收所述通信代理设备发送的模型装载请求,所述模型装载请求中包括模型使用方的身份信息;

36、所述处理模块还用于根据所述模型装载请求中的所述模型使用方的身份信息,对所述模型使用方进行身份验证和授权,得到第二授权结果,所述第二授权结果用于指示是否允许所述模型使用方在内网环境中使用训练得到的模型;

37、所述发送模块还用于通过所述通信代理设备将所述第二授权结果发送至所述模型使用方的设备。

38、第五方面,本申请实施例还可提供一种电子设备,包括:

39、处理器,与所述处理器通信连接的存储器,以及与其他设备交互的通信接口;

40、所述存储器存储计算机执行指令;

41、所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面和第二方面任一项所述的方法。

42、第六方面,本申请实施例还可提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面和第二方面任一项所述的方法。

43、本申请实施例提供的一种数据的处理方法、模型的处理方法、装置及设备,通过对原始数据进行脱敏,数字转换,数字水印等安全转换处理,可防止在数据标注环节发生数据泄露。云端服务器通过对内网环境下的模型训练和模型部署过程进行授权管理,可防止训练好的模型数据被过度使用和训练过程中发生的数据泄露。通过本方法,可以有效避免深度学习整个过程中发生的数据泄露问题。

本文档来自技高网...

【技术保护点】

1.一种数据的处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述初始数据集进行安全转换处理,得到处理后的预处理数据集,包括:

3.根据权利要求2所述的方法,其特征在于,所述对脱敏处理后的数据增加随机噪声和/或几何形变之后,所述方法还包括:

4.一种模型的处理方法,其特征在于,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.一种数据的处理装置,其特征在于,包括:

7.根据权利要求6所述的装置,其特征在于,所述处理模块具体用于:

8.根据权利要求7所述的装置,其特征在于,所述处理模块还用于:

9.一种模型的处理装置,其特征在于,包括:

10.根据权利要求9所述的装置,其特征在于,

11.一种电子设备,其特征在于,包括:

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5任一项所述的方法。

【技术特征摘要】

1.一种数据的处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述初始数据集进行安全转换处理,得到处理后的预处理数据集,包括:

3.根据权利要求2所述的方法,其特征在于,所述对脱敏处理后的数据增加随机噪声和/或几何形变之后,所述方法还包括:

4.一种模型的处理方法,其特征在于,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.一种数据的处理装置,其特征在于,包括:

<...

【专利技术属性】
技术研发人员:张锦锋廉士国
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1