System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种去中心化数据保密的烟草机分类系统技术方案_技高网

一种去中心化数据保密的烟草机分类系统技术方案

技术编号:40362780 阅读:6 留言:0更新日期:2024-02-09 14:50
本发明专利技术公开了一种去中心化数据保密的烟草机分类系统,包括中央服务器、K个本地客户端;中央服务器包括全局模型,全局模型包括共享生成器、全局分类模型、特征提取器;每个本地客户端包括本地数据集、本地表示转换网络、本地分类模型、本地特征提取器;中央服务器根据训练后的本地分类模型、全局分类模型对来自不同客户端的烟草机数据进行分类;本发明专利技术整合不同烟草机的数据,实现不同烟草机数据共享,统一对烟草机进行分类。

【技术实现步骤摘要】

本专利技术涉及联邦学习,特别涉及到一种去中心化数据保密的烟草机分类系统


技术介绍

1、每个烟草局对应的烟草机数据是保密的,所以提出使用联邦学习来解决数据不共享问题。联合学习是一种机器学习范式,其中使用去中心化数据源协作训练共享模型。在经典的联邦平均方法中,中央服务器通过迭代平均来自活动客户端的优化参数来获得模型,这不需要直接访问客户端的本地数据,因此保持了数据机密性。然而,当客户之间的数据异构时,传统联合学习的性能会下降。开发了几种方法来解决客户具有不同标签分布的问题。

2、联合平均是使用去中心化数据源训练机器学习模型的经典联邦学习算法之一。当存在数据异质性时,这种简单的范式会受到性能下降的影响。通过规范客户端本地更新个性化客户模型,目前已经对标签空间异质性进行了大量研究,即不同客户端之间的类分布不平衡。

3、具有局部统计的批处理归一化层,提高了联邦学习模型对中心间数据可变性的鲁棒性,并产生了更好的域外泛化结果,而联邦批标准化方法对局部处理归一化层对具有特征偏移的联邦学习的益处提供了更多的理论分析。

4、不同机构烟草机数据分布不同或者设计样式不同,但是我们仍然需要设计出一个统一能对烟草机进行分类的模型。在这项工作中,本专利技术通过在嵌入空间中执行的特定于客户端的数据增强方法来解决联邦学习中的总体数据不是独立和同分布的的问题。

5、现有技术存在以下问题:自不同客户端的输入特征的分布不相同,即总体数据不是独立和同分布的,即不同机构烟草机数据分布不同或者设计样式不同。当存在数据异质性时,联合平均的性能会下降。少量的研究来解决特征空间中的异质性,即总体数据不是独立和同分布的特征。在跨领域学习中,由于目标域的烟草机数据不可得、领域差异导致负迁移等原因,监督领域自适应模型的训练过程中无法访问目标域数据。在监督领域自适应模型的训练中,主要依靠源域数据而非目标域数据进行监督,这有利于模型学习到两域共有的泛化知识,并减少对目标域数据的过度依赖。


技术实现思路

1、为了解决现有技术中存在不同烟草机数据不共享的问题,提出了一种去中心化数据保密的烟草机分类系统,整合不同烟草机的数据,实现不同烟草机数据共享,统一对烟草机进行分类。

2、本专利技术的技术方案如下:

3、一种去中心化数据保密的烟草机分类系统,包括中央服务器、k个本地客户端;

4、中央服务器包括全局模型,全局模型包括共享生成器、全局分类模型、特征提取器;

5、每个本地客户端包括本地数据集、本地表示转换网络、本地分类模型、本地特征提取器;

6、本地分类模型用于根据本地数据集进行训练;

7、共享生成器用于聚合k个本地客户端的烟草机知识,生成特征嵌入;

8、本地训练表示转换网络用于将特征嵌入转换为领域特定的特征嵌入;

9、本地特征提取器用于提取本地数据集的真实特征嵌入;

10、本地数据集用于存放本地客户端的烟草机数据;

11、全局分类模型根据领域特定特征嵌入和真实特征嵌入进行训练;

12、中央服务器根据训练后的本地分类模型、全局分类模型对来自不同客户端的烟草机数据进行分类。

13、优选地,对本地分类模型、全局分类模型的训练过程具体如下:

14、中央服务器初始化全局模型的参数θ=[θ_f,θ_h],以及共享生成器ω;

15、θ_f表示特征提取器,θ_h表示全局分类模型;dk表示第k个本地数据集;

16、中央服务器向每个本地客户端发送全局模型θ的副本,每个本地客户端初始化它们的本地分类模型,并初始化一个由φk参数化的本地表示转换网络;

17、通过本地数据集对本地分类模型进行训练,将训练后的本地分类模型发送回中央服务器;对本地客户端k进行本地更新;

18、在客户端k的本地更新时,共享生成器ω聚合多个本地客户端的知识,特征提取器生成特征嵌入,输入到本地表示转换网络φ^k中,生成领域特定的特征嵌入;进行特征提取和分类;

19、在进行服务器更新,服务器将所有客户端的优化模型参数聚合到下一轮训练中使用的本地分类模型中;

20、重复以上的过程进行多次训练;直到本地分类模型、全局分类模型均收敛;结束两个模型的训练过程,得到训练后的本地分类模型、全局分类模型。

21、优选地,不同烟草机数据具有非独立和同分布特征,通过联邦学习来解决,具体步骤如下:

22、设为烟草机的输入空间,表示输入大小为一维1×din,为烟草机的特征空间;表示输入大小为一维1×du;为烟草机的输出空间,r表示该值为某个常数,输出为0或者1,1表示烟草机,0表示不是烟草机;

23、设本地数据集在每个客户端上适用,其中表示dk中的烟草机的样本数,c∈n代表烟草机的类数;

24、非独立和同分布数据的联邦学习通过本地数据集上的分布偏移来描述:

25、

26、其中,定义了烟草机的输入空间x和标签空间y在dk上的联合分布。

27、进一步地,具有非独立和同分布特征的联邦学习问题,包括式(1)中的协变量偏移、概念偏移;

28、协变量偏移表示边缘分布px在客户端之间变化,而py|x相同;

29、概念偏移表示条件分布py|x在客户端之间变化,而py相同。

30、进一步地,在对全局分类模型开始训练时,需要进行服务器更新、客户端更新;

31、中央服务器更新是指在训练开始时,中央服务器初始化分类模型的参数θ:=[θf,θh]、共享生成器ω;

32、在每个训练回合r中,所有本地客户端都接收烟草机聚合的本地分类模型参数{θk|k∈k},并行执行本地客户端更新过程;中央服务器将来自所有本地客户端的优化模型参数安全地聚合到单个模型中,用于下一轮训练;

33、本地客户端更新是指在第一轮训练开始时,每个客户端本地初始化一个由φk参数化的表示转换网络;每个客户端从服务器接收分类模型参数θk、共享生成器参数wk,并进行t个本地更新步骤;每个本地更新包括两个阶段:本地分类模型优化、共享生成器和本地训练表示转换网络优化。

34、进一步地,全局分类模型、本地分类模型的构造方法如下:

35、共享生成器和本地训练表示转换网络固定不变,全局分类模型、本地分类模型通过最小化损失lcls来更新:

36、lcls=lreal+lsys,

37、lreal=lce(hk(fk(xk)),yk)    (2)

38、当最小化lreal通过使用来自本地数据集dk中的样本来更新模型参数θk时,最小化lsys仅更新预测头hk;对两个损失函数lreal、lsys使用交叉熵lce。

39、更进一步地,将特征嵌入转换为领域特定特征嵌入的过程如下:

40、共享生成器gk和本地表示转换网络mk生成残差,残差被添加本文档来自技高网...

【技术保护点】

1.一种去中心化数据保密的烟草机分类系统,其特征在于,包括中央服务器、K个本地客户端;

2.根据权利要求1所述的一种去中心化数据保密的烟草机分类系统,其特征在于,对本地分类模型、全局分类模型的训练过程具体如下:

3.根据权利要求1所述的一种去中心化数据保密的烟草机分类系统,其特征在于,不同烟草机数据具有非独立和同分布特征,通过联邦学习来解决,具体步骤如下:

4.根据权利要求3所述的一种去中心化数据保密的烟草机分类系统,其特征在于,具有非独立和同分布特征的联邦学习问题,包括式(1)中的协变量偏移、概念偏移;

5.根据权利要求3所述的一种去中心化数据保密的烟草机分类系统,其特征在于,在对全局分类模型开始训练时,需要进行服务器更新、客户端更新;

6.根据权利要求3所述的一种去中心化数据保密的烟草机分类系统,其特征在于,全局分类模型、本地分类模型的构造方法如下:

7.根据权利要求5所述的一种去中心化数据保密的烟草机分类系统,其特征在于,将特征嵌入转换为领域特定特征嵌入的过程如下:

8.根据权利要求7所述的一种去中心化数据保密的烟草机分类系统,其特征在于,区分由局部预测头生成的两种类型的合成嵌入,包括领域特定的嵌入和类别c的类原型领域特定的综合嵌入

9.根据权利要求8所述的一种去中心化数据保密的烟草机分类系统,其特征在于,对共享生成器和本地训练表示转换网络进行优化:

10.根据权利要求9所述的一种去中心化数据保密的烟草机分类系统,其特征在于,采用最大平均差异作为距离度量,客户端不可知的嵌入被馈送到由φk参数化的表示转换网络mk中,以产生域特定的嵌入和φk通过最小化损失Lrt进行优化:

...

【技术特征摘要】

1.一种去中心化数据保密的烟草机分类系统,其特征在于,包括中央服务器、k个本地客户端;

2.根据权利要求1所述的一种去中心化数据保密的烟草机分类系统,其特征在于,对本地分类模型、全局分类模型的训练过程具体如下:

3.根据权利要求1所述的一种去中心化数据保密的烟草机分类系统,其特征在于,不同烟草机数据具有非独立和同分布特征,通过联邦学习来解决,具体步骤如下:

4.根据权利要求3所述的一种去中心化数据保密的烟草机分类系统,其特征在于,具有非独立和同分布特征的联邦学习问题,包括式(1)中的协变量偏移、概念偏移;

5.根据权利要求3所述的一种去中心化数据保密的烟草机分类系统,其特征在于,在对全局分类模型开始训练时,需要进行服务器更新、客户端更新;

6.根据权利要求3所述的一种去中心化数据保密...

【专利技术属性】
技术研发人员:曾新淼杨舒敏陈小燕吴晓玲朱子开
申请(专利权)人:广东烟草汕尾市有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1