训练医疗数据生成模型的方法、医疗数据生成方法及设备技术

技术编号：41242570 阅读：6 留言：0更新日期：2024-05-09 23:54

本发明专利技术公开一种训练医疗数据生成模型的方法、医疗数据生成方法及设备，涉及医疗数据生成技术领域，方法包括：将真实医疗数据和预测医疗数据输入判别器，并结合判别器损失函数计算梯度值；计算当前累积信息泄露量，并据此计算当前需要分配的隐私预算；根据隐私预算和梯度值确定噪声扰动；根据噪声扰动更新判别器参数再更新生成器参数；最后根据已分配的隐私预算确定是否停止迭代，从而得到医疗数据生成模型，本发明专利技术提出了一种根据信息泄露灵活分配隐私预算的差分隐私方法，在保护了训练数据隐私的同时，合理分配隐私预算，提高生成医疗数据的可用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及医疗数据生成，特别是涉及一种训练医疗数据生成模型的方法、医疗数据生成方法及设备。

技术介绍

1、疾病的诊断和治疗策略需要医疗数据。医生根据患者的临床信息、实验室检测数据和影像学数据做出诊断和决策。这些数据可以帮助他们确定疾病类型、选择治疗方案等。对于罕见病例或特定疾病的数据,传统医疗数据采集通常昂贵且困难。因此，医疗数据应用经常遇到样本分布不均和数据量有限的问题。生成对抗网络作为一种强大的生成模型，能够生成逼真的虚拟数据，解决了传统方法无法解决的问题。生成对抗网络是一种深度学习模型，由生成器和判别器组成。判别器预测输入数据来自真实训练数据的概率，生成器则试图生成模仿真实分布的数据，以至判别器无法区分。使用gan生成的模拟数据可以增加医学数据的样本量，拓宽数据分布，以满足医学领域对于真实和多样化数据的需求。

2、在训练时，鉴别器对训练集的数据会出现过拟合，导致输出的生成数据相比于非训练集数据会更接近训练集数据。因此，gan中训练数据具有一定脆弱性，攻击者可以通过成员推理攻击的方式判断出目标是否出现在gan的训练集中，甚至是目标在训练集中的成员身份。使用gan生成用于医学数据时，训练集样本成员身份的泄露会揭露个体的患病史等敏感信息。在此基础上攻击者可以根据泄露的成员身份信息发起其他攻击，如数据分析、属性推断等等，进一步侵害患者的隐私。差分隐私作为一种隐私保护手段，为当前信息越来越发达的社会所带来的用户隐私泄露问题提供了解决方法。差分隐私技术通过噪声扰动，在保持可接受的隐私保证情况下，针对图像数据训练出较好可

3、部分生成模型已经开始采用基于差分隐私的隐私保护方法来抵抗成员推理攻击。然而这些扰动方式可能会使模型无法很好的收敛，从而影响模型性能，过度的噪声会导致数据的可用性较低，生成的数据不真实或模糊。故而本领域亟需一种保证数据可用性的技术方案。

技术实现思路

1、本专利技术的目的是提供一种训练医疗数据生成模型的方法、医疗数据生成方法及设备，在有效保护模型隐私的同时，最大限度地提高了生成数据的可用性。

2、为实现上述目的，本专利技术提供了如下方案：

3、第一方面，本专利技术提供了一种训练医疗数据生成模型的方法，所述方法包括：

4、获取包含敏感信息的真实医疗数据；

5、确定当前迭代轮数对应的生成式对抗模型中生成器生成的预测医疗数据；

6、将真实医疗数据和预测医疗数据输入至所述生成式对抗模型中的判别器，并结合判别器损失函数，计算当前迭代轮数对应的每个样本医疗数据对应的梯度值；所述判别器损失函数为真实医疗数据和预测医疗数据之间的推土机距离；所述样本医疗数据包括：真实医疗数据和预测医疗数据；

7、计算当前迭代轮数对应的训练过程中样本医疗数据的累积信息泄露量；

8、根据所述累积信息泄露量，计算当前迭代轮数需要分配的隐私预算；

9、根据当前迭代轮数需要分配的隐私预算和每个样本医疗数据对应的梯度值，确定噪声扰动；

10、根据噪声扰动，对当前迭代轮数对应的判别器的参数进行更新；

11、根据当前迭代轮数对应的生成器损失函数和更新后的判别器，计算每个预测医疗数据对应的损失值；

12、根据每个预测医疗数据对应的损失值，对当前迭代轮数对应的生成器的参数进行更新；

13、根据预设的总隐私预算和已分配的隐私预算，计算剩余隐私预算；所述已分配的隐私预算包括当前迭代轮数以及当前迭代轮数之前所需要分配的隐私预算；

14、若所述剩余总隐私预算大于0，则返回步骤“将真实医疗数据和预测医疗数据输入至所述生成式对抗模型中的判别器，并结合判别器损失函数，计算当前迭代轮数对应的每个样本医疗数据对应的梯度值”，否则，停止迭代，得到医疗数据生成模型。

15、可选的，确定当前迭代轮数对应的生成式对抗模型中生成器生成的预测医疗数据，具体包括：

16、对潜在向量进行随机采样，得到潜在向量样本；

17、将所述潜在向量样本输入至生成式对抗模型中的生成器，得到与所述真实医疗数据样本数量相同，维度相同的预测医疗数据。

18、可选的，根据当前迭代轮数需要分配的隐私预算和每个样本医疗数据对应的梯度值，确定噪声扰动，具体包括：

19、计算每个样本医疗数据对应的梯度值的平均值；

20、在所述平均值中，添加均值为0，方差为的高斯噪声，得到噪声扰动；其中，p是采样的比例，td是一次生成器迭代中判别器的迭代次数，∈j为第j次迭代需要分配的隐私预算，δ是差分隐私的松弛项。

21、可选的，将真实医疗数据和预测医疗数据输入至所述生成式对抗模型中的判别器，并结合判别器损失函数，计算当前迭代轮数对应的每个样本医疗数据对应的梯度值，具体包括：

22、将真实医疗数据和预测医疗数据输入至所述生成式对抗模型中的判别器，并结合判别器损失函数，计算当前迭代轮数对应的判别器的损失值；所述判别器的损失函数为：其中，pr表示真实医疗数据的分布，pz表示作为生成器输入的噪声的分布，d表示判别器，g表示生成器，x和g(z)分别表示真实医疗数据和预测医疗数据，e表示期望值；

23、根据所述损失值计算当前迭代轮数对应的每个样本医疗数据对应的梯度值；梯度值的计算公式为：其中w表示判别器的参数，xi表示m个医疗数据中的第i个样本，zi表示对潜在向量z进行随机采样得到的第i个样本，g(zi)表示m个预测医疗数据样本中的第i个样本。

24、可选的，隐私预算的计算公式为：其中，lj是从第一次迭代到第j次迭代中每次迭代中泄露的信息量的总和，p是规模参数，lt是累积信息泄露的阈值。

25、可选的，根据每个预测医疗数据对应的损失值，对当前迭代轮数对应的生成器的参数进行更新，具体包括：

26、根据当前迭代轮数对应的每个预测医疗数据对应的损失值计算每个预测医疗数据对应的梯度值；梯度值的计算公式为：其中，θ表示生成器的参数，za表示对潜在向量z进行随机采样得到的第a个样本，g(za)表示m个预测医疗数据样本中的第a个样本，表示求梯度；

27、根据每个预测医疗数据对应的梯度值，更新当前迭代轮数对应的生成器的参数。

28、可选的，一次迭代过程中的信息泄露量的计算公式为：

29、ix'＝mse(d,x')×id-mse(y,x')×iy；

30、其中，ix'表示第j-1次迭代泄露的信息量，d是真实医疗数据集，x'是当前判别器迭代中生成器生成的预测医疗数据集合，id是真实医疗数据集包含的信息量，y是从第一次迭代到当前迭代的前一次迭代生成的所有预测医疗数据本文档来自技高网...

【技术保护点】

1.一种训练医疗数据生成模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种训练医疗数据生成模型的方法，其特征在于，确定当前迭代轮数对应的生成式对抗模型中生成器生成的预测医疗数据，具体包括：

3.根据权利要求1所述的一种训练医疗数据生成模型的方法，其特征在于，根据当前迭代轮数需要分配的隐私预算和每个样本医疗数据对应的梯度值，确定噪声扰动，具体包括：

4.根据权利要求1所述的一种训练医疗数据生成模型的方法，其特征在于，将真实医疗数据和预测医疗数据输入至所述生成式对抗模型中的判别器，并结合判别器损失函数，计算当前迭代轮数对应的每个样本医疗数据对应的梯度值，具体包括：

5.根据权利要求1所述的一种训练医疗数据生成模型的方法，其特征在于，隐私预算的计算公式为：其中，Lj是从第一次迭代到第j次迭代中每次迭代中泄露的信息量的总和，p是规模参数，Lt是累积信息泄露的阈值。

6.根据权利要求1所述的一种训练医疗数据生成模型的方法，其特征在于，根据每个预测医疗数据对应的损失值，对当前迭代轮数对应的生成器的参数进行更新，具体包括：

7.根据权利要求1所述的一种训练医疗数据生成模型的方法，其特征在于，一次迭代过程中的信息泄露量的计算公式为：

8.一种医疗数据生成方法，其特征在于，所述方法包括：

9.一种计算机设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-7中任一项所述训练医疗数据生成模型的方法的步骤。

10.一种计算机设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求8中所述医疗数据生成方法的步骤。

...

【技术特征摘要】

1.一种训练医疗数据生成模型的方法，其特征在于，所述方法包括：

5.根据权利要求1所述的一种训练医疗数据生成模型的方法，其特征在于，隐私预算的计算公式为：其中，lj是从第一次迭代到第j次迭代中每次迭代中泄露的信息量的总和，p是...

【专利技术属性】
技术研发人员：王叶虎，李宏图，胡亮，李帅，孙成宇，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人