基于数据驱动的肾移植术后肺部感染风险因素挖掘方法技术

技术编号:37668309 阅读:19 留言:0更新日期:2023-05-26 04:28
本发明专利技术公开了一种基于数据驱动的肾移植术后肺部感染风险因素挖掘方法,首先对临床数据集进行降维处理并计算病例对数据集的综合贡献度,然后计算候选感染因素与感染发生之间关联性,再通过神经网络预测模型对按关联性从高到低排序后的候选感染因素进行多重搜索,最后根据最高预测精度确定与肺部感染相关的最佳风险因素集。本发明专利技术的方法以数据驱动的方式智能地从临床病例数据中筛选出引起肾移植术后病人发生肺部感染的重要因素,为感染预测最佳方案选用重要因素数量,使最佳风险因素的筛选更加精准、鲁棒,可应用于肾移植术后病人肺部感染因素的筛选、手术后的诊疗方案辅助决策等,也可以拓展到其他病种发生的最佳风险因素筛选合临床诊疗辅助决策。筛选合临床诊疗辅助决策。筛选合临床诊疗辅助决策。

【技术实现步骤摘要】
Component Analysis)。

技术实现思路

[0007]为解决上述技术问题,本专利技术基于经典的主元分析、灰色关联分析和全连接神经网络,提出了一种基于数据驱动的肾移植术后肺部感染风险因素挖掘方法。具体涉及到如何对临床采集的数据进行清洗,如何利用主元分析对临床数据进行降维后计算病例数据的综合贡献度,如何通过灰色关联分析计算得到所有可能的候选因素与肺部感染情况之间的关联度,以及如何通过全连接神经网络感染预测器进行全局多重搜索以选定最佳的风险因素组。
[0008]本专利技术采用的技术方案为:一种基于数据驱动的肾移植术后肺部感染风险因素挖掘方法,具体步骤如下:
[0009]S1、利用主元分析法对临床数据集进行量化;
[0010]S2、对量化后的数据进行降维处理;
[0011]S3、基于步骤S2得到的数据降维结果,分别计算各病例样本对整个数据集的综合贡献度;
[0012]S4、基于步骤S2得到的病例综合贡献度,分别计算各候选风险因素相对于肺部感染出现之间的关联度,并以降序排序;
[0013]S5、基于全连接神经网络模型设计一个肺部感染预测器;
[0014]S6、利用步骤S5设计的预测器,对步骤S4中排序的候选风险因素进行增量式多重搜索预测,根据最高预测精度确定最佳风险因素集。
[0015]进一步地,所述步骤S1中,对全体病例数据集进行量化,具体如下:
[0016]假定给定的临床数据集S有M个病例,每个病例包含N个可能的肺部感染候选因素,且且表示实数域。原数据集S如式(1)所示量化成S
norm
∈[

1,1]N
×
M
,S
norm
表示是原数据集矩阵经过量化以后得到的数据矩阵。
[0017][0018]其中,和S
r
分别代表数据矩阵S
norm
和S中的第r个行向量,而和则分别表示原矩阵S中第r个行向量中风险因素的最大值和最小值,表示向量S
r
中所有元素的均值,r={0,1,

,N

1}。
[0019]进一步地,所述步骤S2中,具体如下:
[0020]S21、计算特征值和特征矩阵;
[0021]对量化后的行向量执行零均值处理,即其中,表示得到的第r个零均值向量,表示行向量中所有元素的均值。把得到的零均值矩阵记为X,计算得到X的协方差矩阵C
X
=(X*X
T
)/M,T表示矩阵的转置。
[0022]计算协方差矩阵C
X
的N个特征值λ
i
及对应的特征向量ξ
i
,约束条件为:|λ
i
I

C
X
|=0且(λ
i
I

C
X

i
=0,其中,I表示一个N阶单位矩阵,i={0,1,2,

,N

1}。把N个ξ
i
按对应特征值λ
i
的大小降序排列,组成一个特征向量排序矩阵P。
[0023]S22、计算累计贡献率;
[0024]先分别计算每一个主元的贡献率ψ
i
,计算规则如式(2):
[0025][0026]再计算矩阵C
X
中n个主元的累计贡献率预先设定一个累计贡献率阈值θ,当Φ
n
≥θ时得到最优的主元数量n。
[0027]S23、计算矩阵X的降维结果;
[0028]选择矩阵P中的前n个特征向量ξ0、ξ1、ξ2、

、ξ
n
‑1组成一个新矩阵P
sub
,据此计算X的降维结果矩阵X
dim
,其中,X
dim
=P
sub
*X。
[0029]进一步地,所述步骤S3中,具体如下:
[0030]如式(3)所示,以矩阵运算的形式整体计算各病例数据在整体样本的综合贡献度分值,构成一个列向量F:
[0031][0032]其中,T表示矩阵的转置,ψ

表示直接由n个主元贡献率ψ
i
(i=0,1,2,

,n

1)组成的一个n维列向量。
[0033]进一步地,所述步骤S4中,具体如下:
[0034]S41、参数的初始化;
[0035]把从步骤S3中计算得到的病例贡献度列向量F,设置为临床数据集量化矩阵中全部候选风险因素分析的一个参考向量。
[0036]S42、计算差异矩阵D;
[0037]根据规则计算量化矩阵与贡献度列向量F的差异并做绝对值处理。然后再计算差异矩阵D中各列数据最大值构成的行向量和最小值构成的行向量min(.)和max(.)分别表示对矩阵的各列求最大值和最小值,返回由各列计算结果组成的一个行向量。
[0038]S43、计算灰色关联系数矩阵G;
[0039]基于差异矩阵D,计算各候选风险因素构成的灰色关联系数矩阵,如式(4)所示:
[0040][0041]其中,G
i,j
表示关联系数矩阵G中行列坐标为(i,j)的那个元素,ρ是设置的一个分辨率系数,其取值范围限制为ρ∈(0,1)。
[0042]S44、计算风险因素与肺部感染的关联度;
[0043]按照式(5)分别计算病例数据集中各候选风险因素与发生肺部感染情况之间的关联度:
[0044][0045]其中,ε
j
表示数据矩阵中第j个候选风险因素与肺部感染相关的关联度分值,j={0,1,

,N

1},M仍表示病人的病例总数。
[0046]进一步地,所述步骤S5中,基于神经网络设计肺部感染预测器,具体如下:
[0047]此预测器包括三层神经元全连接结构:输入层神经元、隐层神经元和输出层神经元。
[0048]设置预测器的参数,其中,m0表示输入层神经元数量,m1和m2分别表示隐层和输出层的神经元数量。W1和W2分别表示输入层

隐层以及隐层

输出层神经元的连接构成的权值矩阵。
[0049]此外,f 1
和b1分别表示隐层神经元的激活函数和偏置向量,f 2
和b2则分别表示输出层的激活函数和偏置向量。x和a分别表述输入到预测网络的特征向量和网络的预测结果,x∈[0,1]m0
×1且a∈{0,1}。当预测网络输出a=0时表示预测病人肾移植手术后无肺部感染发生,当输出a=1则表示预测病人会出现肺部感染。
[0050]根据各层神经元的全连接模式,权值矩阵W1和W2分别满足条件和预测网络的输出则由式(6)计算得到:
[0051]a=f2(W2*本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据驱动的肾移植术后肺部感染风险因素挖掘方法,具体步骤如下:S1、利用主元分析法对临床数据集进行量化;S2、对量化后的数据进行降维处理;S3、基于步骤S2得到的数据降维结果,分别计算各病例样本对整个数据集的综合贡献度;S4、基于步骤S2得到的病例综合贡献度,分别计算各候选风险因素相对于肺部感染出现之间的关联度,并以降序排序;S5、基于全连接神经网络模型设计一个肺部感染预测器;S6、利用步骤S5设计的预测器,对步骤S4中排序的候选风险因素进行增量式多重搜索预测,根据最高预测精度确定最佳风险因素集。2.根据权利要求1所述的一种基于数据驱动的肾移植术后肺部感染风险因素挖掘方法,其特征在于,所述步骤S1中,对全体病例数据集进行量化,具体如下:假定给定的临床数据集S有M个病例,每个病例包含N个可能的肺部感染候选因素,且假定给定的临床数据集S有M个病例,每个病例包含N个可能的肺部感染候选因素,且表示实数域;原数据集S如式(1)所示量化成S
norm
∈[

1,1]
N
×
M
,S
norm
表示是原数据集矩阵经过量化以后得到的数据矩阵;其中,和S
r
分别代表数据矩阵S
norm
和S中的第r个行向量,而和则分别表示原矩阵S中第r个行向量中风险因素的最大值和最小值,表示向量S
r
中所有元素的均值,r={0,1,

,N

1}。3.根据权利要求1所述的一种基于数据驱动的肾移植术后肺部感染风险因素挖掘方法,其特征在于,所述步骤S2中,具体如下:S21、计算特征值和特征矩阵;对量化后的行向量执行零均值处理,即其中,表示得到的第r个零均值向量,表示行向量中所有元素的均值;把得到的零均值矩阵记为X,计算得到X的协方差矩阵C
X
=(X*X
T
)/M,T表示矩阵的转置;计算协方差矩阵C
X
的N个特征值λ
i
及对应的特征向量ξ
i
,约束条件为:|λ
i
I

C
X
|=0且(λ
i
I

C
X

i
=0,其中,I表示一个N阶单位矩阵,i={0,1,2,

,N

1}。把N个ξ
i
按对应特征值λ
i
的大小降序排列,组成一个特征向量排序矩阵P;S22、计算累计贡献率;先分别计算每一个主元的贡献率ψ
i
,计算规则如式(2):再计算矩阵C
X
中n个主元的累计贡献率预先设定一个累计贡献率阈值θ,当Φ
n
≥θ时得到最优的主元数量n;S23、计算矩阵X的降维结果;
选择矩阵P中的前n个特征向量ξ0、ξ1、ξ2、

、ξ
n
‑1组成一个新矩阵P
sub
,据此计算X的降维结果矩阵X
dim
,其中,X
dim
=P
sub
*X。4.根据权利要求1所述的一种基于数据驱动的肾移植术后肺部感染风险因素挖掘方法,其特征在于,所述步骤S3中,具体如下:如式(3)所示,以矩阵运算的形式整体计算各病例数据在整体样本的综合贡献度分值,构成一个列向量F:其中,T表示矩阵的转置,ψ

表示直接由n个主元贡献率ψ
i
(i=0,1,2,

,n

1)组成的一个n维列向量。5.根据权利要求1所述的一种基于数据驱动的肾移植术后肺部感染风险因素挖掘方法,其特征在于,所述步骤S4中,具体如下:S41、参数的初始化;把从步骤S3中计算得到的病例贡献度列向量F,设置为临床数据集量化矩阵中全部候选风险因素分析的一个参考向量;S42、计算差异矩阵D;根据规则计算量化矩阵与贡献度列向量F的差异并做绝对值处理;然后再计算差异矩阵D中各列数据最大值构成的行向量和最小值构成的行向量min(.)和max(.)分别表示...

【专利技术属性】
技术研发人员:纪禄平张欣宇杨纤雪陈波
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1