拜占庭攻击鲁棒的联邦电子健康档案表型提取方法技术

技术编号：40107541 阅读：24 留言：0更新日期：2024-01-23 18:39

本发明专利技术公开了一种拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，应用于K个客户端；该方法包括：将获取的EHR张量分解成患者因子矩阵、诊断因子矩阵和用药因子矩阵；接收服务器发送的时间采样序列；根据时间采样序列中的当前索引判断因子矩阵是否被选中；当诊断因子矩阵或用药因子矩阵被选中时，正常客户端根据服务器发送的第二梯度更新下一索引选中的因子矩阵、并根据第一梯度更新下一索引选中的因子矩阵的反馈误差；当接收到服务器发送的第一指令时，根据被选中的诊断因子矩阵和用药因子矩阵获得电子健康档案的表型提取结果。本发明专利技术实现了涉及多医院分布式电子病历数据的安全与隐私的协同表型提取，且可用于拜占庭攻击与隐私攻击的对抗环境下。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据处理，具体涉及一种拜占庭攻击鲁棒的联邦电子健康档案表型提取方法。

技术介绍

1、由实体网络如医院、诊所、药房公司编织而成的现代医疗保健系统正在从具有各种医疗程序、药物、诊断和实验室测试的大量个人那里收集电子健康记录。张量分解具有良好的高维数据表示能力，为了从更高数量的关系电子健康记录中提取有意义的医学概念即表型，其被应用于表型提取中。candecomp/parafac或规范多元张量分解及其泛化gtf是分析张量的基本工具，然而，最基本的cp分解模型难以对大型数据集进行高效的分解，分布式张量分解方法才可处理单台机器无法处理的大张量。但是，在分布式环境中需要进行数据共享和交换，由于涉及隐私问题，这通常会受到政策的阻碍。

2、目前，联邦学习为不同实体之间的协作学习提供了一种隐私保护方式，联邦张量分解方法避免了共享原始张量和患者模式的相关变量，成为分布式数据在隐私保护方面更好的dtf范式，同时能够保持与之相当的计算能力和存储可扩展性。然而，联邦学习需要执行客户端和服务器之间的通信操作，在联邦计算表型分析中，由于属性的多样性，如药物的类型可能有数千种，高维张量会在每个通信周期中产生高通信成本，尽管张量分解因其表示高维数据的能力在一定程度上减少了通信成本，但仍然难以面对庞大的数据传输压力。

3、为了解决联邦学习中通信成本高的问题，现有技术中还存在带有高效通信的联邦张量分解方法。但是，由于联邦学习分布式的环境特性，该方法安全性较低，恶意用户采取对抗行动、亦或是硬件故障、软件错误、数据崩溃都会导致来自客户

技术实现思路

1、为了解决现有技术中存在的上述问题，本专利技术提供了一种拜占庭攻击鲁棒的联邦电子健康档案表型提取方法。本专利技术要解决的技术问题通过以下技术方案实现：

2、第一方面，本专利技术实施例提供一种拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，应用于k个客户端，所述客户端包括正常客户端和拜占庭客户端；

3、所述表型提取方法包括：

4、获取电子健康记录ehr张量，并根据所述ehr张量分解成因子矩阵；所述因子矩阵包括患者因子矩阵、诊断因子矩阵和用药因子矩阵；

5、接收服务器发送的时间采样序列；

6、根据所述时间采样序列中的当前索引，判断因子矩阵是否被选中；

7、当选中的因子矩阵为诊断因子矩阵或用药因子矩阵时，正常客户端利用被选中的因子矩阵的随机梯度和反馈误差计算得到第一梯度后，根据服务器发送的第二梯度更新下一索引选中的因子矩阵、并根据第一梯度更新下一索引选中的因子矩阵的反馈误差；

8、当接收到服务器发送的第一指令时，根据被选中的诊断因子矩阵和用药因子矩阵获得电子健康档案的表型提取结果。

9、在本专利技术的一个实施例中，所述根据所述时间采样序列中的当前索引，判断因子矩阵是否被选中的步骤，包括：

10、根据所述时间采样序列中的当前索引，判断因子矩阵是否被选中；

11、若是，则根据第一目标函数计算被选中的因子矩阵的随机梯度。

12、在本专利技术的一个实施例中，若因子矩阵被选中，所述根据第一目标函数计算被选中的因子矩阵的随机梯度的步骤之后，还包括：

13、当被选中的因子矩阵为患者因子矩阵时，所述客户端按照如下公式更新下一索引选中的因子矩阵：

14、

15、式中，a(d)[t]表示当前索引t选中的因子矩阵，d表示因子矩阵的索引，表示对于客户端k，当前索引t选中的因子矩阵a(d)[t]的随机梯度，γ[t]表示a(d)[t]的随机梯度的学习率，a(d)[t+1]表示下一索引选中的因子矩阵。

16、在本专利技术的一个实施例中，当选中的因子矩阵为诊断因子矩阵或用药因子矩阵时，所述正常客户端利用被选中的因子矩阵的随机梯度和反馈误差计算得到第一梯度后，根据服务器发送的第二梯度更新下一索引选中的因子矩阵、并根据第一梯度更新下一索引选中的因子矩阵的反馈误差的步骤，包括：

17、正常客户端利用被选中的因子矩阵的随机梯度和反馈误差计算第一梯度，拜占庭客户端生成任意值；

18、将所述第一梯度和所述任意值发送至服务器，以使所述服务器按照非降序对所述第一梯度和所述任意值进行排序后，根据从排序结果中选取的预设数量个数据计算得到第二梯度，并将所述第二梯度广播至所述客户端；

19、正常客户端根据所述第二梯度更新下一索引选中的因子矩阵，并根据所述第一梯度更新下一索引选中的因子矩阵的反馈误差。

20、在本专利技术的一个实施例中，正常客户端按照如下公式更新下一索引选中的因子矩阵：

21、a(d)[t+1]＝a(d)[t]-δ

22、式中，δ表示第二梯度，d表示因子矩阵的索引，a(d)[t]表示当前索引t选中的因子矩阵，a(d)[t+1]表示下一索引t+1选中的因子矩阵。

23、在本专利技术的一个实施例中，正常客户端按照如下公式更新下一索引选中的因子矩阵的反馈误差：

24、

25、式中，k表示客户端的索引，表示当前索引t选中的因子矩阵的随机梯度，γ[t]表示当前索引t选中的因子矩阵的随机梯度的学习率，表示下一索引t+1选中的因子矩阵的反馈误差。

26、在本专利技术的一个实施例中，所述当接收到服务器发送的第一指令时，根据被选中的诊断因子矩阵和用药因子矩阵获得电子健康档案的表型提取结果的步骤之前，还包括：

27、判断是否接受到服务器发送的第一指令；

28、当选中的因子矩阵为诊断因子矩阵或用药因子矩阵时，正常客户端利用被选中的因子矩阵的随机梯度和反馈误差计算得到第一梯度后，根据服务器发送的第二梯度更新下一索引选中的因子矩阵、并根据第一梯度更新下一索引选中的因子矩阵的反馈误差的步骤之后，还包括：

29、当未接收到服务器发送的第一指令时，将下一索引作为当前索引，并返回所述根据所述时间采样序列中的当前索引，判断因子矩阵是否被选中的步骤。

30、第二方面，本专利技术提供一种拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，应用于服务器，包括：

31、随机生成时间采样序列；

32、将所述时间采样序列分别发送至k个客户端，以使各客户端在获取ehr张量后，根据her张量分解成患者因子矩阵、诊断因子矩阵和用药因子矩阵，并根据所述时间采样序列中的当前索引，判断因子矩阵是否被选中，在选中的因子矩阵为诊断因子矩阵或用药因子矩阵时，使k个客户端中的正常客户端利用反馈误差和被选中的因子矩阵的随机梯度计算第一梯度，并使拜占庭客户端随机生成任意值；

33、接收所述正常客户端发送的第一梯度及所述拜占庭客户端发本文档来自技高网...

【技术保护点】

1.一种拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，其特征在于，应用于K个客户端，所述客户端包括正常客户端和拜占庭客户端；

2.根据权利要求1所述的拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，其特征在于，所述根据所述时间采样序列中的当前索引，判断因子矩阵是否被选中的步骤，包括：

3.根据权利要求2所述的拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，其特征在于，若因子矩阵被选中，所述根据第一目标函数计算被选中的因子矩阵的随机梯度的步骤之后，还包括：

4.根据权利要求2所述的拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，其特征在于，当选中的因子矩阵为诊断因子矩阵或用药因子矩阵时，所述正常客户端利用被选中的因子矩阵的随机梯度和反馈误差计算得到第一梯度后，根据服务器发送的第二梯度更新下一索引选中的因子矩阵、并根据第一梯度更新下一索引选中的因子矩阵的反馈误差的步骤，包括：

5.根据权利要求4所述的拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，其特征在于，正常客户端按照如下公式更新下一索引选中的因子矩阵：

6.根据权利要求5所述

7.根据权利要求1所述的拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，其特征在于，所述当接收到服务器发送的第一指令时，根据被选中的诊断因子矩阵和用药因子矩阵获得电子健康档案的表型提取结果的步骤之前，还包括：

8.一种拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，其特征在于，应用于服务器，包括：

9.根据权利要求8所述的拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，其特征在于，所述从排序结果中选取预设数量个数据，并计算得到第二梯度的步骤，包括：

...

【技术特征摘要】

1.一种拜占庭攻击鲁棒的联邦电子健康档案表型提取方法，其特征在于，应用于k个客户端，所述客户端包括正常客户端和拜占庭客户端；

【专利技术属性】
技术研发人员：张水晶，娄坚，刘静，
申请(专利权)人：西安电子科技大学广州研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人