当前位置: 首页 > 专利查询>哈尔滨工业大学中数深圳时代科技有限公司专利>正文

一种基于联邦学习的多临床分期疾病辅助分类方法及系统技术方案

技术编号：38685569 阅读：10 留言：0更新日期：2023-09-02 22:58

一种基于联邦学习的多临床分期疾病辅助分类方法及系统，属于大数据、医疗技术领域。为提高分类模型的准确率及隐私数据安全性。本发明专利技术采集病例数据构建病例数据集，将病例数据集输入到客户端，进行分析处理，得到优化的病例数据集；客户端对优化的病例数据集进行XGGridBoost模型训练，得到完成训练的模型参数进行加密处理、压缩处理，得到处理的模型参数发送给中心服务端进行解压缩，然后对解压缩的模型参数进行安全聚合，并使用近似算法确定最佳分割点，中心服务端将最佳分割点发送给多个客户端，多个客户端接收后判断本地决策树是否达到最大深度，进行迭代训练或者输出训练模型。本发明专利技术解决数据孤岛的问题，提高隐私数据的安全性。的安全性。的安全性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于联邦学习的多临床分期疾病辅助分类方法及系统

[0001]本专利技术属于大数据、医疗
，具体涉及一种基于联邦学习的多临床分期疾病辅助分类方法及系统。

技术介绍

[0002]随着人工智能技术的迅速发展，传统的手写病历单子已经逐渐被电子病历所替代。基于电子病历进行机器学习训练，致使各种疾病辅助分类模型层出不穷。通过患者输入病理特征值来预测疾病分期，为医生看诊提供辅助建议。然而随着病历数据量增加以及数据保护意识的提升，现有的通过传统机器学习进行多临床分期疾病辅助分类模型训练存在一些缺陷：传统的机器学习模型，属于集中式学习，它需要将各方医院的患者数据进行整合，在整合的过程中，会增加隐私数据泄露的风险。同时也由于医疗数据隐私性高，存在部分医院不愿意共享数据，那么就形成数据孤岛的问题。

技术实现思路

[0003]本专利技术要解决的问题是提高分类模型的准确率及隐私数据的安全性，提出一种基于联邦学习的多临床分期疾病辅助分类方法及系统。
[0004]为实现上述目的，本专利技术通过以下技术方案实现：
[0005]一种基于联邦学习的多临床分期疾病辅助分类方法，包括一个中心服务端和多个愿意参与联邦学习并向中心服务端提交联邦学习任务的客户端，包括如下步骤：
[0006]S1、采集病例数据构建病例数据集，将病例数据集输入到客户端，进行分析处理，得到优化的病例数据集；
[0007]S2、客户端对步骤S1得到的优化的病例数据集进行XGGridBoost模型训练，得到完成训练的模型参数；r/>[0008]步骤S2的具体实现方法包括如下步骤：
[0009]S2.1、构建XGGridBoost初始模型为Obj，计算表达式为：
[0010][0011]其中，T为叶子节点的数量，j为第j叶子节点，λ与γ分别为正则化项中控制正则化方式L1和正则化方式L2的正则化的超参数，G
j
为叶子节点j所包含样本的一阶偏导数累加之和，H
j
为叶子节点j所包含样本的二阶偏导数累加之和；
[0012]S2.2、客户端对步骤S1得到的优化的病例数据集进行XGGridBoost模型训练，使用步骤S2.1构建的XGGridBoost初始模型进行训练，采用交叉熵作为损失函数，判断预测结果，计算表达式为：
[0013][0014]其中，p(x
i
)为第i个疾病的真实分布概率，q(x
i
)为第i个疾病的预测分布概率，n为疾病分期总个数，Loss为交叉熵损失函数；
[0015]S3、将步骤S2得到的完成训练的模型参数进行加密处理、压缩处理，得到处理的模型参数发送给中心服务端；
[0016]步骤S3的具体实现方法包括如下步骤：
[0017]S3.1、将步骤S2得到的完成训练的模型参数采用差分隐私技术进行加密处理，计算表达式为：
[0018]P
r
[M(x)∈S]≤exp(ε)P
r
[M(y)∈S]+δ
[0019]其中，P
r
[M(x)∈S]为在含有完成训练的模型参数的数据集x上执行算法M得到结果S的概率，ε为隐私参数，x为含有完成训练的模型参数的数据集，y为x的相邻数据集，δ为附加参数，M为添加噪音的算法；
[0020]添加噪音的算法采用拉普拉斯算法，计算表达式为：
[0021][0022]其中，q'(x)为添加拉普拉斯噪音后的结果，q(x)为原始数据，Δf为查询的敏感度，ε为隐私预算参数；
[0023]拉普拉斯噪音的密度函数f(z)的计算表达式为：
[0024][0025]其中，z为随机变量取值，b为尺度参数，μ为位置参数，|z
‑
μ|为z与μ的绝对距离；
[0026]S3.2、将步骤S3.1加密处理后的模型参数采用LZ77算法与Huffman编码进行结合，首先采用LZ77算法对加密处理后的模型参数进行压缩，然后计算每个压缩参数出现的频率，根据出现的频率，每次选择最小的两个节点合并成一个新的节点，权值相加作为新的节点的权值，不断重复这个过程，直到所有的节点合并成一个根节点，构建Huffman树，最后将每个压缩参数按照生成的Huffman编码进行二进制转换，然后将所有的二进制代码连接，得到处理的模型参数；
[0027]S3.3、将步骤S3.2得到的处理的模型参数发送给中心服务端；
[0028]S4、中心服务端对接收的处理的模型参数进行解压缩，然后对解压缩的模型参数进行安全聚合，并使用近似算法确定最佳分割点，然后中心服务端将最佳分割点发送给多个客户端；
[0029]S5、多个客户端接收最佳分割点后，判断本地决策树是否达到最大深度，判断为否，则根据得到的最佳分割点信息作为本地决策树构建下一层，并重新分配样本进行迭代模型训练，判断为是，则停止构建决策树完成训练，输出训练模型。
[0030]进一步的，步骤S1的具体实现方法包括如下步骤：
[0031]S1.1、采集病例数据，然后将患者的个人信息、病史信息、体格检查、生化检测、作为特征值，将医生的诊断结果作为标签，然后对病历中存在的错误数据进行剔除，构建病历数据集F1；
[0032]S1.2、对步骤S1得到的病历数据集F1进行缺失值填充，得到补充数据的病历数据集F2；
[0033]S1.3、对步骤S1.2得到的补充数据的病历数据集F2进行诊断结果无关特征值删除，得到诊断相关数据集F3；
[0034]S1.4、对步骤S1.3得到的诊断相关数据集F3进行关联性分析，然后删除诊断相关数据集F3中关联性低的特征值，得到优化的病例数据集F4。
[0035]进一步的，步骤S1.2的具体实现方法包括如下步骤：
[0036]S1.2.1、对于患者的身高、体重的缺失值，分别计算男性、女性的身高与体重平均值，进行缺失值填充；
[0037]S1.2.2、对于腰围与臀围的缺失值，将臀围与腰围分别作为因变量，身高、体重的特征值作为自变量，使用多元线性回归进行预测填充；
[0038]S1.2.3、对于生化检测的缺失值，采用基于决策树的集成学习算法进行预测填充。
[0039]进一步的，步骤S1.3中的诊断结果无关特征值包括患者的证件号、手机号、个人信息特征值、看诊后的医嘱用药特征值。
[0040]进一步的，步骤S1.4的具体实现方法包括如下步骤：
[0041]S1.4.1、基于卡方检验法对步骤S1.3得到的诊断相关数据集F3进行关联度分析，卡方检验法的计算表达式为：
[0042][0043]其中，f0为实际值，f
e
为期望值，x2为卡方统计量；
[0044]S1.4.2、基于方差分析法对步骤S1.3得到的诊断相关数据集F3进行关联度分析，方差分析法的计算表达式为：
[0045][0046]其中，SSA为组间平方和，SSE为组内平方和，相应的SSA/(k本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的多临床分期疾病辅助分类方法，包括一个中心服务端和多个愿意参与联邦学习并向中心服务端提交联邦学习任务的客户端，其特征在于，包括如下步骤：S1、采集病例数据构建病例数据集，将病例数据集输入到客户端，进行分析处理，得到优化的病例数据集；S2、客户端对步骤S1得到的优化的病例数据集进行XGGridBoost模型训练，得到完成训练的模型参数；步骤S2的具体实现方法包括如下步骤：S2.1、构建XGGridBoost初始模型为Obj，计算表达式为：其中，T为叶子节点的数量，j为第j叶子节点，λ与γ分别为正则化项中控制正则化方式L1和正则化方式L2的正则化的超参数，G
j
为叶子节点j所包含样本的一阶偏导数累加之和，H
j
为叶子节点j所包含样本的二阶偏导数累加之和；S2.2、客户端对步骤S1得到的优化的病例数据集进行XGGridBoost模型训练，使用步骤S2.1构建的XGGridBoost初始模型进行训练，采用交叉熵作为损失函数，判断预测结果，计算表达式为：其中，p(x
i
)为第i个疾病的真实分布概率，q(x
i
)为第i个疾病的预测分布概率，n为疾病分期总个数，Loss为交叉熵损失函数；S3、将步骤S2得到的完成训练的模型参数进行加密处理、压缩处理，得到处理的模型参数发送给中心服务端；步骤S3的具体实现方法包括如下步骤：S3.1、将步骤S2得到的完成训练的模型参数采用差分隐私技术进行加密处理，计算表达式为：P
r
[M(x)∈S]≤exp(ε)P
r
[M(y)∈S]+6其中，P
r
[M(x)∈S]为在含有完成训练的模型参数的数据集x上执行算法M得到结果S的概率，ε为隐私参数，x为含有完成训练的模型参数的数据集，y为x的相邻数据集，δ为附加参数，M为添加噪音的算法；添加噪音的算法采用拉普拉斯算法，计算表达式为：其中，q'(x)为添加拉普拉斯噪音后的结果，q(x)为原始数据，Δf为查询的敏感度，ε为隐私预算参数；拉普拉斯噪音的密度函数f(z)的计算表达式为：其中，z为随机变量取值，b为尺度参数，μ为位置参数，|z
‑
μ|为z与μ的绝对距离；
S3.2、将步骤S3.1加密处理后的模型参数采用LZ77算法与Huffman编码进行结合，首先采用LZ77算法对加密处理后的模型参数进行压缩，然后计算每个压缩参数出现的频率，根据出现的频率，每次选择最小的两个节点合并成一个新的节点，权值相加作为新的节点的权值，不断重复这个过程，直到所有的节点合并成一个根节点，构建Huffman树，最后将每个压缩参数按照生成的Huffman编码进行二进制转换，然后将所有的二进制代码连接，得到处理的模型参数；S3.3、将步骤S3.2得到的处理的模型参数发送给中心服务端；S4、中心服务端对接收的处理的模型参数进行解压缩，然后对解压缩的模型参数进行安全聚合，并使用近似算法确定最佳分割点，然后中心服务端将最佳分割点发送给多个客户端；S5、多个客户端接收最佳分割点后，判断本地决策树是否达到最大深度，判断为否，则根据得到的最佳分割点信息作为本地决策树构建下一层，并重新分配样本进行迭代模型训练，判断为是，则停止构建决策树完成训练，输出训练模型。2.根据权利要求1所述的一种基于联邦学习的多临床分期疾病辅助分类方法，其特征在于：步骤S1的具体实现方法包括如下步骤：S1.1、采集病例数据，然后将患者的个人信息、病史信息、体格检查、生化检测、作为特征值，将医生的诊断结果...

【专利技术属性】
技术研发人员：马超，潘长港，张罗刚，杨锦波，于海宁，孙迎港，吴英东，
申请(专利权)人：哈尔滨工业大学中数深圳时代科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人