一种基于患者电子健康记录的不良事件风险预测方法技术

技术编号:34013347 阅读:14 留言:0更新日期:2022-07-02 15:09
本发明专利技术公开了一种基于患者电子健康记录的不良事件风险预测方法,包括以下步骤:S1、数据预处理;S2、进行K均值聚类采样处理,将数据分成3个类簇,得到3个聚类中心;S3、将3个聚类中心按P

【技术实现步骤摘要】
一种基于患者电子健康记录的不良事件风险预测方法


[0001]本专利技术涉及一种基于患者电子健康记录的不良事件风险预测方法。

技术介绍

[0002]艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(HIV)引起,它的主要攻击目标是人体免疫系统中最重要的CD4T淋巴细胞,使人体丧失免疫功能,导致易于感染各种疾病,病死率较高。感染艾滋病之后,如果经过积极的治疗,可以获得比较良好的治疗效果,但是如果出现了严重的并发症等不良事件,则治疗效果将会受到影响。结合常规风险因素和艾滋病患者特异性因素来预测未来可能出现的并发症等不良事件,可以作为指导艾滋病患者医疗保健的有力辅助。艾滋病患者的电子健康记录(Electronic Health Records,EHR)不仅包含患者每次就诊的医疗代码(包括诊断、用药和程序代码,诊断码,例如:585.9(慢性肾病),程序代码就是指代表了干预、治疗等程序的编码;每个代码都代表了一种症状、疾病、异常发现、干预和治疗等),还包含了患者的人口统计学数据和生命体征等个性化数据,利用这些数据来预测艾滋病患者未来可能发生的不良事件可以辅助医生对其医疗保健做出更合理决策。
[0003]中国专利申请“CN109887606A一种基于注意力的双向递归神经网络的诊断预测方法”提供了一种基于注意力的双向递归神经网络的预测方法,首先将高维医学编码(即临床变量)嵌入低码层空间,然后将编码表示输入到一个基于注意力的双向递归神经网络,生成隐藏状态表示。通过softmax层预测未来就诊的医疗代码。
[0004]Edward Choi(E.Choi,M.T.Bahadori,L.Song,et al.UA

CRNN:GRAM:Graph

based Attention Model for Healthcare Representation Learning[C].in:Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining,London,2018,pp.249

256)等人提出了基于知识图注意力机制的表示学习方法,主要利用医学本体固有的层次信息,学习一个包含信息更丰富的医学编码的嵌入表示,然后采用深度学习的方法来进行预测。但是上述技术方法存在如下问题:(1)模型对训练数据量有依赖,训练数据充足时有良好的预测效果,在数据量不充足时,预测性能较差;(2)忽略了医学编码本身所蕴含的医学本体知识,对于出现频次低,情况罕见的医学代码预测性能差。
[0005]基于知识图的表示学习方法为了学习包含更丰富信息的医学编码的嵌入表示,需要更大的计算开销,训练难度也更大。另外,上述方法都忽略了患者之间的个体差异,这对预测的准确性造成影响。

技术实现思路

[0006]本专利技术的目的在于克服现有技术的不足,提供一种通过聚类算法为基础学习器采样合适的训练样本,设计自适应结合策略,根据训练样本到预训练集中心的距离,自适应的产生不同基础分类器的集成权重,使得模型具备更强的自适应性的基于患者电子健康记录的不良事件风险预测方法。
[0007]本专利技术的目的是通过以下技术方案来实现的:一种基于患者电子健康记录的不良事件风险预测方法,包括以下步骤:
[0008]S1、数据预处理:在电子健康记录数据中,将每个患者的数据当作一个时间顺序的诊断序列;对诊断序列进行如下处理:
[0009]S11、用C={c1,c2,...,c
N
}表示所有诊断代码的集合,c
i
表示第i个诊断代码,1≤i≤N,N表示诊断代码的总数量;X=[x1,x2,...,x
T
]代表一个患者的就诊信息,其中第t次就诊信息x
t
∈{0,1}
N
,{0,1}
N
表示含N个元素的向量,每个元素的值为0或1,即x
t
={x
t1
,x
t1
,

,x
ti
,

x
tN
};如果序号为i的诊断代码c
i
∈{c1,c2,...,c
N
}出现在第t次就诊中,则x
ti
=1,否则x
ti
=0;
[0010]S12、用L=[l1,l2,...,l
T
]代表一名患者全部就诊的个性化数据,l
i
代表第i次就诊的个性化数据记录的向量表示;对每位患者T次就诊求取平均值,得到不同次就诊中同一种数据的平均值l
*
;对于数值型数据,缺失值选择用平均值补齐,对于非数值型数据,根据统计学中的众数原理,使用该患者数据中出现频率最高的值进行补齐;
[0011]S13、对X中每个诊断代码进行求和,得到每位患者所有就诊信息中唯一诊断代码的频次即再对所有的求和,得到所有数据中唯一诊断代码的频次S
*
,令P
*
=s
*
/S
*
表示每位患者数据中各诊断代码出现频次在全部数据中的占比;
[0012]处理完毕后,第j每位患者的数据由三部分组成X
j
、L
j
、F
j
,1≤j≤M,M表示收集到数据的患者数量;表示第j位患者的不同次就诊中同一种数据的平均值l
*
,表示第j位患者数据中各诊断代码出现频次在全部数据中的占比;
[0013]S2、进行K均值聚类采样处理:以每位患者的数据作为样本点进行K均值聚类,将数据分成3个类簇,得到3个聚类中心θ1,θ2,θ3,然后计算每个患者数据的F
j
和每个聚类中心的F

之间的欧氏距离,对于每个聚类中心,按相同的采样率从所有患者的数据中根据距离从小到大的顺序选择到相应的子数据集中,得到D'=D1'∪D2'∪D3',生成的多个子数据集用于基础分类器的训练;
[0014]S3、将3个聚类中心θ1,θ2,θ3按P
*
中的最大值从小到大进行排序,分别作为罕见编码子集、较常见编码子集、常见编码子集,然后将三个子集分别对应输入GRAM+、Dipole+、RNN+三个基础分类器进行预训练,然后对三个基础分类器进行模型融合。
[0015]进一步地,所述GRAM+是在GRAM的基础上利用患者个性化数据作为引导,添加全局注意力机制,其具体设计如下:
[0016]在医学本体构成的知识有向无环图中,叶节点就是S11中的诊断代码集合中的元素,其祖先节点就表示该叶节点代表的本体由其衍生出来;所有节点c被分配一个基本嵌入向量e,将叶节点的最终表示形式表示为其自身及其祖先节点的基本嵌入的凸组合:
[0017][0018]其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于患者电子健康记录的不良事件风险预测方法,其特征在于,包括以下步骤:S1、数据预处理:在电子健康记录数据中,将每个患者的数据当作一个时间顺序的诊断序列;对诊断序列进行如下处理:S11、用C={c1,c2,...,c
N
}表示所有诊断代码的集合,c
i
表示第i个诊断代码,1≤i≤N,N表示诊断代码的总数量;X=[x1,x2,...,x
T
]代表一个患者的就诊信息,其中第t次就诊信息x
t
∈{0,1}
N
,{0,1}
N
表示含N个元素的向量,每个元素的值为0或1,即x
t
={x
t1
,x
t1
,

,x
ti
,

x
tN
};如果序号为i的诊断代码c
i
∈{c1,c2,...,c
N
}出现在第t次就诊中,则x
ti
=1,否则x
ti
=0;S12、用L=[l1,l2,...,l
T
]代表一名患者全部就诊的个性化数据,l
i
代表第i次就诊的个性化数据记录的向量表示;对每位患者T次就诊求取平均值,得到不同次就诊中同一种数据的平均值l
*
;对于数值型数据,缺失值选择用平均值补齐,对于非数值型数据,根据统计学中的众数原理,使用该患者数据中出现频率最高的值进行补齐;S13、对X中每个诊断代码进行求和,得到每位患者所有就诊信息中唯一诊断代码的频次s
*i
,即再对所有的s
*i
求和,得到所有数据中唯一诊断代码的频次S
*
,令P
*
=s
*
/S
*
表示每位患者数据中各诊断代码出现频次在全部数据中的占比;处理完毕后,第j每位患者的数据由三部分组成X
j
、L
j
、F
j
,1≤j≤M,M表示收集到数据的患者数量;F
j
=[l
*j
,P
*j
],l
*j
表示第j位患者的不同次就诊中同一种数据的平均值l
*
,P
*j
表示第j位患者数据中各诊断代码出现频次在全部数据中的占比;S2、进行K均值聚类采样处理:以每位患者的数据F
j
=[l
*j
,P
*j
]作为样本点进行K均值聚类,将数据分成3个类簇,得到3个聚类中心θ1,θ2,θ3,然后计算每个患者数据的F
j
和每个聚类中心的F

之间的欧氏距离,对于每个聚类中心,按相同的采样率从所有患者的数据中根据距离从小到大的顺序选择到相应的子数据集中,得到D'=D1'∪D2'∪D3',生成的多个子数据集用于基础分类器的训练;S3、将3个聚类中心θ1,θ2,θ3按P
*
中的最大值从小到大进行排序,分别作为罕见编码子集、较常见编码子集、常见编码子集,然后将三个子集分别对应输入GRAM+、Dipole+、RNN+三个基础分类器进行预训练,然后对三个基础分类器进行模型融合。2.根据权利要求1所述的一种基于患者电子健康记录的不良事件风险预测方法,其特征在于,所述GRAM+是在GRAM的基础上利用患者个性化数据作为引导,添加全局注意力机制,其具体设计如下:在医学本体构成的知识有向无环图中,叶节点就是S11中的诊断代码集合中的元素,其祖先节点就表示该叶节点代表的本体由其衍生出来;所有节点c被分配一个基本嵌入向量e,将叶节点的最终表示形式表示为其自身及其祖先节点的基本嵌入的凸组合:其中g
i
表示医疗代码c
i
的嵌入表示,Α(i)表示代码c
i
和c
i
祖先节点的索引,α
ij

【专利技术属性】
技术研发人员:郑恒杰刘勇国张云朱嘉静李巧勤傅翀
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1