一种基于数据增强与隐私增强的组联邦元学习方法技术

技术编号：41244216 阅读：6 留言：0更新日期：2024-05-09 23:55

本发明专利技术属于联邦元学习方法的技术领域，更具体地，涉及一种基于数据增强与隐私增强的组联邦元学习方法。方法包括本地客户端处理阶段；服务器端根据本地客户端的数据分布表示对本地客户端进行初始分组，再将收到的本地元模型进行平均聚合生成组元模型；所有本地客户端收到服务器下发的初始化全局元模型后，进行更新本地元模型；服务器根据更新的数据分布表示更新分组，然后将更新的本地元模型进行更新后的组内聚合，生成新的组元模型；进行更新迭代；本地客户端进行模型个性化。本发明专利技术解决了现有技术中存在数据异构性、数据稀缺、类别不平衡的情况，在处理罕见病医疗领域中本地模型泛化效果较差，医疗数据存在被泄露的风险的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于联邦元学习方法的，更具体地，涉及一种基于数据增强与隐私增强的组联邦元学习方法。

技术介绍

1、随着人工智能的快速发展，网络边缘设备产生的数据急剧增加，即将开启全球性的“数据爆炸”时代，联邦学习应运而生。联邦学习是一种分布式的机器学习系统，打破了现实社会不同企业，机构之间数据不共享而产生的数据孤岛的问题，本地参与者上传加密后的模型参数，具有较高的隐私保护机制，防止隐私数据泄露。

2、中国专利技术专利cn114566277a公开了一种基于联邦元学习的罕见疾病分类方法，包括：对本地医疗数据进行预处理，将常见疾病分为用于元模型训练的支持集和查询集，将罕见疾病分为测试集和验证集；基于强化分类的元学习方法，对支持集和查询集进行动态更新分类，得到训练后的元模型；以f分数对训练后的元模型动态筛选，并进行动态特征融合，得到更新后的全局模型；将更新后的全局模型参数下发给本地元模型初始化，开始下一轮训练；直至获取各个本地收敛的元模型，根据收敛后的元模型获取罕见疾病概率值。

3、联邦元学习广泛应用于医疗领域，但应用于罕见病领域存在一定的局限性。由于罕见病是指患者数量较少的疾病，通常每种罕见病的患者数量都不超过一定的阈值，存在数据稀缺和数据高度异构的情况，故联邦学习现面临一些挑战，包括异构性和隐私泄露的问题，在实际应用中，如何确保每个本地客户端本地个性化模型泛化能力好，同时隐私数据不被泄露。但此技术的应用存在一些问题：①隐私与效用的平衡：差分隐私通过引入噪声来保护数据隐私，但同时也会对模型的准确性和效用产生影响。②参

技术实现思路

1、本专利技术旨在克服上述现有技术的至少一种缺陷，提供一种基于数据增强与隐私增强的组联邦元学习方法，以解决现有技术中由于罕见病发病率较低，数据通常来自多个不同的数据源，包括医院、医疗机构、患者注册表等，存在数据异构性、数据稀缺、类别不平衡的情况，而现有的联邦元学习技术隐含假设不同客户端之间的数据分布是相似的，数据不稀缺的情况下进行研究，没有考虑实际场景中的问题，因此在处理罕见病医疗领域中本地模型泛化效果较差，医疗数据存在被泄露的风险等问题。

2、本专利技术详细的技术方案如下：

3、s1、本地客户端处理阶段：对每个本地客户端的图像数据进行数据增强处理，并将本地客户端的数据分布表示和本地元模型发送至服务器；

4、s2、服务器端根据本地客户端的数据分布表示对本地客户端进行初始分组，再将收到的本地元模型进行平均聚合生成组元模型并发送至不同分组中的本地客户端；

5、s3、各本地客户端随机选取自端客户端数据更新数据分布表示，同时，根据得到的组元模型和随机选取的自端客户端数据更新自端的本地元模型，将更新的数据分布表示和更新的本地元模型发送至服务器；

6、s4、服务器根据更新的数据分布表示使用k-means聚类算法结合欧氏距离公式更新分组，然后将更新的本地元模型进行更新后的组内聚合，生成新的组元模型；

7、s5、重复s3-s4直至达到设置的更新迭代阈值；

8、s6、在更新迭代后进行本地客户端模型个性化阶段，用于验证组元模型能否使本地客户端模型个性化泛化能力提高。

9、本地客户端使用自端数据库中测试任务数据集进行模型个性化，具体过程如下：

10、本地客户端将自端数据库中测试任务数据集输入到基于自注意力机制的卷积神经网络而获取数据特征，并生成数据分布表示发送给服务器；

11、在服务器端，将本地客户端的数据分布表示与簇类中心进行欧氏距离对比其相似度，然后向本地客户端返回对应的组元模型用于更新自适应差分项和本地元模型，更新后的本地元模型性能得到提高。

12、所述s1具体包括以下步骤：

13、s11、由于罕见病数据存在数据稀缺，分类多样的情况，会导致本地元模型性能低，因此对本地客户端的图像数据进行数据增强；

14、所述数据增强包括：翻转，抖动，旋转，剪切；

15、s12、构建基于自注意力机制的卷积神经网络提取各本地客户端的数据特征和相对应的权重值，得到各本地客户端的数据分布表示；通过学习自注意力权重来关注医学图像中的重要区域，从而提高模型对关键特征的捕获能力，同时允许模型动态调整不同位置的权重；

16、所述基于自注意力机制的卷积神经网络包括：

17、在训练基于自注意力机制的卷积神经网络中，通过计算每个图像像素位置的查询（q）、关键向量（k）、值（v），并计算位置之间的关联度，从而使模型能够动态调整对图像中不同位置的关注程度。

18、首先通过查询query（q）和关键向量（k）之间的点积，再除以一个缩放因子计算得到注意力分数，公式如下：

19、（3）；

20、然后通过注意力分数进行softmax操作得到注意力权重，公式如下：

21、（4）；

22、最后，通过将注意力权重应用于cnn卷积神经网络提取的原始特征，通过加权求和的方式得到了新的特征表示，公式如下：

23、（5）；

24、因此，每个本地客户端都依据本地基于自注意力机制的卷积神经网络（cnn）提取数据特征，获得本地数据分布表示，一共有n个本地客户端，因此有n个数据分布表示。

25、s13、定义自适应差分项协同损失函数；

26、由于要实现的是组联邦元学习，在其训练过程中不仅存在模型反演攻击和成员推理攻击常见的联邦学习中隐私泄露技术，还会因为是依据本地数据进行聚类分组，组内成员的数据分布具有相似性，攻击者会通过分析和对比这些数据和信息，推断出组内其他参与者之间的数据，导致敏感数据的泄露，因此本专利技术提出在组联邦元学习中引入自适应差分项，具体过程如下：

27、引入的自适应差分项是跟随本地客户端本地训练模型的损失函数进行训练，因此要先定义自适应差分项；

28、（1）；

29、值随着迭代的次数收敛到较小的值，因此噪声会在保护数据的同时，避免模型受到较大的干扰，作为常量，通常其值较小，为防止因数值较小而发生除数为0的错误而引入。

30、含有自适应差分项的自适应损失函数如下：

31、（2）；

32、s14、每个本地客户端根据模型损失函数收敛确定自适应差分项，对本地元模型进行噪声干扰，生成具有隐私保护的本地元模型。

33、s15、将每个本地客户端的本地元模型和数据分布表示发送至服务器。

34、进一步地，所述s2具体包括以下步骤：

35、s21、服务器根据收到的本地客户端数据分布表示，利用k-means++算法，得到k个初始簇中心；

36、s22、得到k个初始簇类中心后，结合各个本地客户端的数据分布表示，使用欧氏距离进行初始化分组；

37、（6）；...

【技术保护点】

1.一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，包括：

2.根据权利要求1所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述S1具体包括：

3.根据权利要求2所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述基于自注意力机制的卷积神经网络包括：

4.根据权利要求1所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述S2具体包括以下步骤：

5.根据权利要求1所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述S3具体包括以下步骤：

6.根据权利要求1所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述本地客户端本地迭代更新分为元训练阶段和元测试阶段；

【技术特征摘要】

1.一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，包括：

2.根据权利要求1所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述s1具体包括：

3.根据权利要求2所述的一种基于数据增强与隐私增强的组联邦元学习方法，其特征在于，所述基于自注意力机制的卷积神经网络包括：

4.根据权利要求1所述的...

【专利技术属性】
技术研发人员：高龙翔，宋心如，边文行，孙守岳，崔磊，顾树俊，曲悠扬，
申请(专利权)人：山东省计算中心国家超级计算济南中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人