一种预警模型训练方法、系统及应用方法、系统技术方案

技术编号：37551006 阅读：15 留言：0更新日期：2023-05-15 07:36

本发明专利技术公开了一种预警模型训练方法、系统及应用方法、系统，涉及计算机及电子病历挖掘领域，训练方法包括获取训练样本集；提取每一医学事件对应的特征向量，得到事件特征向量；提取每一医学事件对应的时间戳，得到时间特征向量；将每一组事件特征向量和对应的时间特征向量进行合并，得到若干组合并后的特征向量；基于TransformerEncoder结构构建预警模型；按时间戳的顺序将患者住院过程的电子病历数据对应的若干组合并后的特征向量分别输入预警模型；根据预警模型的输出和对应的诊断结果，确定损失函数；根据损失函数优化预警模型的参数，以对预警模型进行训练，得到训练好的预警模型。本发明专利技术能够及时、准确地得到预警信息。准确地得到预警信息。准确地得到预警信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种预警模型训练方法、系统及应用方法、系统

[0001]本专利技术涉及计算机及电子病历挖掘领域，特别是涉及一种预警模型训练方法、系统及应用方法、系统。

技术介绍

[0002]随着人民生活水平日益提高和科学技术的发展，人们对预测模型(predictive models)表现的预期也在提高。在时间序列预测领域，人们不再只满足于预测的准确性，预测的及时性开始得到更多的重视。实际上，及时预测的重要性可以体现在人民生活的方方面面：尽早地、准确地知道未来的天气变化可以给人们的出行规划带来更多灵活性；尽早地、准确地预测未来的股市走势可以给人们带来更大的机会窗口；在临床医学领域，尽早地发现、诊断疾病为提前干预提供了条件，对保障患者的生命、提升患者的生活质量以及降低整个社会的医学成本都有极大的现实意义。
[0003]然而，在现实世界中，时间序列数据普遍含有几个以下特点，使得传统的统计学方法在这个领域举步维艰。一，数据来源多样，传统的统计学方法难以考虑到数据结构与信息的异质性；二，数据非常高维度；三，数据含有丰富的长期依赖关系(long
‑
term dependencies)且依赖关系的时间不均一；四，信息在时间上分布高度不均；五，每个序列的长度不一定一致；六，特征交互(feature interactions)关系未知且难以做出准确的假设。很长的一段时间内，为了分析高维复杂的时间序列，科学家需要对数据做出不完全反应现实的强假设。而模型的精度也差强人意。
[0004]由于人工智能方法强大的特征提取能力与...

【技术保护点】

【技术特征摘要】
1.一种预警模型训练方法，其特征在于，所述训练方法包括以下步骤：获取训练样本集；所述训练样本集包括患者住院过程的电子病历数据和对应的诊断结果，所述电子病历数据包括若干个医学事件，以及每一所述医学事件对应的时间戳，所述医学事件为每一条被电子病历系统记录的信息，所述诊断结果为确诊或非确诊；提取每一所述医学事件对应的特征向量，得到事件特征向量；提取每一所述医学事件对应的时间戳，得到时间特征向量；将每一组所述事件特征向量和对应的所述时间特征向量进行合并，得到若干组合并后的特征向量；基于Transformer Encoder结构构建预警模型；按时间戳的顺序将所述患者住院过程的电子病历数据对应的若干组合并后的特征向量分别输入所述预警模型；根据所述预警模型的输出和所述患者住院过程的电子病历数据对应的诊断结果，确定损失函数；根据所述损失函数优化所述预警模型的参数，以对所述预警模型进行训练，得到训练好的预警模型。2.根据权利要求1所述的一种预警模型训练方法，其特征在于，所述提取每一所述医学事件对应的特征向量，得到事件特征向量，具体包括：判断所述医学事件是否为实验室报告之外的事件，得到判断结果；所述实验室报告之外的事件包括个人信息、体温、影像学检查、手术信息和用药信息；若所述判断结果为是，则采用以下公式计算所述医学事件的事件特征向量：F
c
＝Wc其中，F
c
为事件特征向量，W为Embedding层的参数，c为医学事件对应的高维稀疏向量；若所述判断结果为否，则采用以下公式计算所述医学事件的事件特征向量：F
c
＝σ(W[F
test_item
|F
result
]+b)其中，F
c
为事件特征向量，W为Embedding层的参数，σ为leaky ReLU层的参数，F
test_item
为实验室检测项目的向量表示，F
result
为实验室检测项目结果的向量表示，b为线性变换的参数。3.根据权利要求1所述的一种预警模型训练方法，其特征在于，所述提取每一所述医学事件对应的时间戳，得到时间特征向量，具体包括：对每一所述医学事件的时间戳进行编码，得到与所述事件特征向量相同维度的时间特征向量。4.根据权利要求1所述的一种预警模型训练方法，其特征在于，所述损失函数的计算公式为：L＝0.05
×
L
(1)
+0.2
×
L
(2)
+L
(3)
+0.0001
×
L
reg
其中，L为损失函数，L
(1)
为第1层transformer模块的mini
‑
batch的损失函数，L
(2)
为第2层transformer模块的mini
‑
batch的损失函数，L
(3)
为第3层transformer模块的mini
‑
batch的损失函数，L
reg
为L2正则化；第l层transformer模块的mini
‑
batch的损失函数的计算公式
为：L
(l)
为第l层transformer模块的mini
‑
batch的损失函数，l＝1，2，3，B为mini
‑
batch中的样本数量，y
p
为患者的真实的标签，为预警模型的预测，N
′
p
为不同时间戳的数量。5.一种预警模型应用方法，其特征在于，所述应用方法包括以下步骤：获取患者当前住院过程的电子病历数据，所述电子病历数据包括若干个医学事件，以及每一所述医学事件对应的时间戳，所述医学事件为每一条被电子病历系统记录的信息；将所述患者当前住院过程的电子病历数据按时间戳的顺序输入预警模型，得到预测结果，所述预警模型为根据权利要求1
‑
4任一项所述的一种预警模型训练方法训练好的模型；判断所述预测结果是否超过预设阈值；若是，则发出预警信号。6.一种预警模型训练系统，其特征在于，所述训练系统包括：训练样本集获取单元，用于获取训练样本集；所述训练样本集包括患者住院过...

【专利技术属性】
技术研发人员：戴璐韬，李子孝，杨昕，沈海鹏，王拥军，李昊，姜勇，赵性泉，林琳，
申请(专利权)人：首都医科大学附属北京天坛医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人