一种基于电子病历数据驱动的妊娠期糖尿病预测方法技术

技术编号:17251623 阅读:48 留言:0更新日期:2018-02-11 10:37
本发明专利技术公开了一种基于电子病历数据驱动的妊娠期糖尿病预测方法,在智慧医疗服务中发挥日益重要的作用,本文发明专利技术了基于机器学习的妊娠期糖尿病(gestational diabetes mellitus,GDM)妊娠期糖尿病预测框架,根据采集数据的不同时间窗划分方法,构建了全域数据预测模型、分期数据预测模型和周数据预测模型三组预测框架。在识别预测问题后,通过输入与ETL数据清洗、病案编码与特征数据关联、电子病历数据预处理、二次数据处理、特征工程、机器学习、预测应用七个步骤,实现了高维度电子病历的数据挖掘。使用临床数据构建了关于确诊的标记数据集,并将其划分为用于模型训练和测试的2个子集。通过支持向量机、贝叶斯网络、决策树以及基于集成的混合模型进行预测,实现GDM模式分类。

【技术实现步骤摘要】
一种基于电子病历数据驱动的妊娠期糖尿病预测方法
本专利技术涉及糖尿病预测领域,具体而言是一种基于电子病历数据驱动的妊娠期糖尿病预测方法。
技术介绍
在疾病预测中,以妊娠期糖尿病(gestationaldiabetesmellitus,GDM)为例,根据国际糖尿病联调查,虽然越来越多的妇女接受产前检查,但仍是最常见的妊娠并发症,其定义为妊娠前糖代谢正常或有潜在糖耐量减退、妊娠期才出现或确诊的糖尿病。GDM带来的严重后果,使得医疗群体对其提前诊断和预防十分重视。妊娠期糖尿病带来的风险包括:母婴2型糖尿病、胎儿过度生长和短期内相关不良预后风险,以及后代长期肥胖等风险。GDM预测诊断和预防作为妇幼保健群体都十分关注的重要问题,使得其成为健康医疗大数据应用的一个重要领域。临床医生和孕妇都期待在更早的妊娠阶段就能够感知GDM风险,以期尽早预防和干预。随着电子病历(Electronicmedicalrecord,EMR)及相关临床数据的周期性收集和跨界数据的积累,EMR再利用和大数据分析技术为GDM提前诊断和预防提供前瞻性工具。根据传统的诊断方法如国家卫生行业标准的妊娠期糖尿病诊断指南(2011),常在妊娠24-28周通过口服葡萄糖耐量试验(oralglucosetolerancetest,OGTT),执行妊娠期糖尿病的筛选与诊断。在此之前,孕产妇也会进行大量的系统性产前检查。孕妇健康医疗数据的全面动态采集、利用与传递,在多源信息系统中积累了大量的EMR数据。结合海量的健康医疗大数据,通过妇幼保健智能应用和基于临床决策支持系统等工具也能够收集大量关于妇幼人群医疗保健服务的碎片化信息和追踪数据,为GDM预测提供了大量的跨界数据。这些应用能够动态实时采集数据,提供个性化、精准化的健康管理服务,这已成为行业内一种新趋势。通过EMR实现GDM风险预测和模式辨识,降低GDM病给母婴带来的高风险,逐渐成为提升妇幼健康水平的重要途径。
技术实现思路
有鉴于现有研究之不足,本专利技术提供一种基于电子病历数据驱动的妊娠期糖尿病预测方法;在区域医疗服务中发挥日益重要的作用;使用临床数据,结合人工智能和机器学习等方法,提供疾病的智能决策支持系统,这有助于解决重复检验检查和重复诊疗问题,提供医生工作效率和降低劳动负荷,加强医疗差错控制,丰富区域医疗信息共享平台的服务方式及提高应用价值。本专利技术实现过程是,构造一种基于电子病历数据驱动的妊娠期糖尿病预测方法,其特征在于:包括以下步骤:(1)、输入与ETL数据清洗模块。获取EMR对应的历史建档孕妇数据,并通过抽取、转换和加载等步骤完成初步数据清洗,完成去隐私与数据质量管理;(2)、病案编码与特征数据关联模块。通过EMR系统的患者识别码ID进行时空脱敏数据关联,结合临床知识和经验筛选特征数据,生成GDM数据仓库;(3)、EMR数据预处理模块。对输入数据进行缺失值、离散化和归一化处理;(4)、二次数据处理模块。进行分类标签校准,完成纳入排除标准检查;(5)、特征工程模块。将数据划分为GDM和非GDM两类,将与疾病关联的临床数据作为条件属性,标记类别为决策属性,进行嵌入式特征选择;(6)、机器学习模块。根据选择的输入特征,将全数据划分为训练样本和测试样本,选择时间窗和机器学习模型,进行十字交叉法训练,得到预测算法;(7)、预测应用模块。将未确诊的孕妇电子病历数据,输入步骤(6)中的机器学习模型,推理这些待诊断孕妇的GDM发生值(或风险率)。具体而言,首先启动电子病历数据驱动的妊娠期糖尿病预测方法的处理过程,访问电子病历数据存储器,并将数据输入流程,通过ETL模块完成数据清洗工作。随后结合电子病历数据收集流程,识别预测问题,完成病案编码与特征数据关联。通过去隐私相关方法,消除患者数据中的隐私信息,检查数据质量,实现查询关联的脱敏数据模块,完成GDM数据仓库构建。在EMR数据预处理阶段,完成缺失值处理,实现数据离散化与归一化处理工作。然后,实现分类标签分析与校准,完成电子病历数据纳入排除标准检查,完成二次数据处理工作。对实验数据集进行样本划分,包括确诊GDM与否的两个数据集,进而实现特征工程模块。接着,通过时间窗划分与模型选择模块,进入:全域数据预测模型GDPM、分期数据预测模型SDPM或周数据预测模型WDPM,然后进入基于机器学习的GDM预测模型,进而实现预测应用。将应用结果作为反馈控制来优化模型,在后续阶段的特征工程中实现数据复用。最后结束数据处理流程。根据本专利技术所述的一种基于电子病历数据驱动的妊娠期糖尿病预测方法,其特征在于:采集不同时间窗划分方法构建预测模型:(1)、全域数据预测模型,使用早于OGTT的EMR数据,推理分类值;(2)、分期数据预测模型,使用孕早期或13周至23周的EMR,推理分类值;(3)、周数据预测模型,使用从第12周开始的每周EMR,推理分类值。根据本专利技术所述的一种基于电子病历数据驱动的妊娠期糖尿病预测方法,其特征在于:通过病案编码与特征数据关联,构建GDM数据仓库:(1)、建档数据集,包括建档ID、建档医生、建档时间、丈夫年龄、丈夫身体状况、丈夫嗜好、BMI等;(2)、产检数据集,包括产检ID、体重、产检时间、孕周、舒张压等;(3)、LIS数据,包括血常规、肝功能、肾功能、电解质、糖化血红蛋白、血脂、铁蛋白等;(4)、病案首页,包括就诊号、病案号、诊断编号、诊断类型、诊断ICD编码(医生)、诊断ICD编码(病案)等。鉴于基于智能推理模型的预测系统在智慧医疗服务中发挥日益重要的作用,本专利技术提供了基于机器学习的妊娠期糖尿病预测框架,根据采集数据的不同时间窗划分方法,构建了全域数据预测模型、分期数据预测模型和周数据预测模型三组预测框架。在识别预测问题后,通过输入与ETL数据清洗、病案编码与特征数据关联、EMR数据预处理、二次数据处理、特征工程、机器学习、预测应用七个步骤,实现了高维度电子病历的数据挖掘。使用临床数据构建了关于确诊的标记数据集,并将其划分为用于模型训练和测试的2个子集。通过支持向量机、贝叶斯网络、CHAID决策树以及基于集成的混合模型进行预测,实现GDM模式分类。基于预测模型开发了区域医疗应用系统,结果表明基于机器学习的GDM预测模型为区域医疗孕产妇提前预测妊娠期糖尿病提供了一种有效的应用工具。本专利技术具有以下优点:构建了基于机器学习的妊娠期糖尿病(GDM)预测模型集,根据采集数据的不同时间窗划分方法,涵盖了孕产妇提前预测妊娠期糖尿病的主要需求,提高了临床决策支持系统的智能水平,在区域医疗服务中发挥日益重要的作用;通过病案编码与临床特征数据关联,构建基于核心数据的GDM数据仓库,为高维度EMR数据的知识挖掘与数据管理提供技术支撑,能够提高医生工作效率和降低工作负荷,增强医疗差错控制,丰富区域医疗信息共享平台的服务方式及提高应用价值。附图说明图1电子病历数据驱动的妊娠期糖尿病预测;图2基于二次清洗和机器学习的GDM预测框架;图3全域数据预测模型;图4分期数据预测模型;图5周数据预测模型;图6孕早期建档前数据收集流程;图7基于机器学习的GDM预测模块;图8是一种电子病历数据驱动的妊娠期糖尿病预测方法流程示意图。具体实施方式下面将结合附图对本专利技术进行详细说明,对本专利技术实施例本文档来自技高网
...
一种基于电子病历数据驱动的妊娠期糖尿病预测方法

【技术保护点】
一种基于电子病历数据驱动的妊娠期糖尿病预测方法,其特征在于:按照以下方式实现;构建以下模块;(1)、输入与ETL数据清洗模块:获取EMR对应的历史建档孕妇数据,并通过抽取、转换和加载等步骤完成初步数据清洗,完成去隐私与数据质量管理;(2)、病案编码与特征数据关联模块:通过EMR系统的患者识别码ID进行时空脱敏数据关联,结合临床知识和经验筛选特征数据,生成GDM数据仓库;(3)、EMR数据预处理模块:对输入数据进行缺失值、离散化和归一化处理;(4)、二次数据处理模块:进行分类标签校准,完成纳入排除标准检查;(5)、特征工程模块:将数据划分为GDM和非GDM两类,将与疾病关联的临床数据作为条件属性,标记类别为决策属性,进行嵌入式特征选择;(6)、机器学习模块:根据选择的输入特征,将全数据划分为训练样本和测试样本,选择时间窗和机器学习模型,进行十字交叉法训练,得到预测算法;(7)、预测应用模块:将未确诊的孕妇电子病历数据,输入步骤(6)中的机器学习模型,推理这些待诊断孕妇的GDM发生值(或风险率);实施时,首先启动电子病历数据驱动的妊娠期糖尿病预测方法的处理过程,访问电子病历数据存储器,并将数据输入流程,通过输入与ETL数据清洗模块完成数据清洗工作;随后结合电子病历数据收集流程,识别预测问题,完成病案编码与特征数据关联;通过去隐私相关方法,消除患者数据中的隐私信息,检查数据质量,实现查询关联的脱敏数据模块,完成GDM数据仓库构建;由EMR数据预处理模块在EMR数据预处理阶段,完成缺失值处理,实现数据离散化与归一化处理工作;然后,由二次数据处理模块实现分类标签分析与校准,完成电子病历数据纳入排除标准检查,完成二次数据处理工作;对实验数据集进行样本划分,包括确诊GDM与否的两个数据集,进而实现特征工程模块;接着,通过时间窗划分与模型选择模块,进入:全域数据预测模型GDPM、分期数据预测模型SDPM或周数据预测模型WDPM,然后进入基于机器学习的GDM预测模型,进而实现预测应用;将应用结果作为反馈控制来优化模型,在后续阶段的特征工程中实现数据复用;最后结束数据处理流程。...

【技术特征摘要】
1.一种基于电子病历数据驱动的妊娠期糖尿病预测方法,其特征在于:按照以下方式实现;构建以下模块;(1)、输入与ETL数据清洗模块:获取EMR对应的历史建档孕妇数据,并通过抽取、转换和加载等步骤完成初步数据清洗,完成去隐私与数据质量管理;(2)、病案编码与特征数据关联模块:通过EMR系统的患者识别码ID进行时空脱敏数据关联,结合临床知识和经验筛选特征数据,生成GDM数据仓库;(3)、EMR数据预处理模块:对输入数据进行缺失值、离散化和归一化处理;(4)、二次数据处理模块:进行分类标签校准,完成纳入排除标准检查;(5)、特征工程模块:将数据划分为GDM和非GDM两类,将与疾病关联的临床数据作为条件属性,标记类别为决策属性,进行嵌入式特征选择;(6)、机器学习模块:根据选择的输入特征,将全数据划分为训练样本和测试样本,选择时间窗和机器学习模型,进行十字交叉法训练,得到预测算法;(7)、预测应用模块:将未确诊的孕妇电子病历数据,输入步骤(6)中的机器学习模型,推理这些待诊断孕妇的GDM发生值...

【专利技术属性】
技术研发人员:邱航余海燕王利亚张岩龙
申请(专利权)人:电子科技大学成都数联易康科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1