一种基于中文电子病历的辅助诊断决策方法技术

技术编号:19062458 阅读:158 留言:0更新日期:2018-09-29 13:19
辅助诊断决策方法是临床决策支持系统(Clinical decision support system,CDSS)中的一个非常活跃应用分支。目前的辅助诊断决策方法都没能很好的利用中文电子病历数据集、无法有效的挖掘中文电子病历中症状与疾病的关联规则、无法很好地降低症状特征维度、无法很准确地在高维症状特征空间中进行多种疾病的精准分类。针对这些问题,本发明专利技术给出了一种基于中文电子病历的辅助诊断决策方法。首先将中文电子病历集中的疾病与症状信息进行清洗,然后挖掘疾病与症状事务的关联规则,本发明专利技术根据疾病与症状事务关联规则的置信度进行排序,并且以基分类器分类结果为基准从中进行特征选择,根据特征选择出的特征向量运用决策树分类器进行疾病分类,实现了对疾病的预测。

【技术实现步骤摘要】
一种基于中文电子病历的辅助诊断决策方法
本专利技术涉及数据挖掘领域,具体涉及特征选择算法,分类算法。
技术介绍
最早的辅助诊断决策方法主要都集中在基于知识的CDSS研究与实现,其系统结构大体由人机接口、知识库和推理机三部分组成。知识库是由来自医学文献的规则、临床指南等来构建,并根据这些知识转化成的规则并运用一定的推理机制通过人机交互界面提供决策支持服务。但是,医学和医学知识始终在发展,在变更,要使知识库中知识能够跟上发展的脚步需要巨大的投入和消耗。所以基于非知识的CDSS,即基于电子病历的辅助诊断决策方法的研究逐渐变成了当前诊断决策支持系统研究的热点与主流方向。与基于知识的CDSS不同,基于电子病历的辅助诊断决策方法通过对大规模电子病历数据集的进行关联规则挖掘、分类、回归等操作能够不断发现新的知识来帮助医生在疾病诊断过程中做出更好的决策。随着2011年卫生部制定了电子病历的基本规范,并在全国范围内110家医院开展电子病历的试点工作。经过几年的发展,电子病历系统已成为衡量医院信息化建设水平的一个重要标准,电子病历系统也积累了相当可观的数据量,并且这些数据都是患者的真实数据,这对疾病的诊疗和医学研究等都具有巨大的价值和广阔的发展前景,特别是以电子病历为基础的应用在CDSS的疾病诊断过程中发挥了重要作用,并且进一步推进了国内疾病诊断系统的研究与发展。基于中文电子病历的辅助诊断决策方法研究仍处于起步阶段,在国内,周志华,姜远等人将机器学习模型用于疾病预测分析但是均为单病种疾病预测模型,很难直接适用于多特征多类别医学数据集的预测中。虽然大量的人工神经网络已经用于医疗诊断,但是神经网络模型需要从大量的样本中提取特征以训练诊断预测模型,很难直接用于构建少数类医学疾病诊断模型。2007年,蒋琳等采用SVM技术,对436个病例的14个特征建立了2型糖尿病预测模型,为提高预测性能,提出了一种最优特征子集选择方法,最终选出4种特征,这四个特征对应指标最高(敏感度86.66%、特异性64.22%、准确率70.14%)。同时,还采用决策树、多层感知机方法进行了试验,结果表明支持SVM的效果最好。现有研究主要针对基于知识的辅助诊断决策方法,同时在中文电子病历数据集中因为存在大量的特征属性,导致特征属性维数高引发矩阵运算量大、训练样本稀疏和过拟合等问题一直限制着传统分类器的分类质量,所以特征选择是疾病分类问题中不可忽略的一项重要工程。
技术实现思路
本专利技术给出一种基于中文电子病历的辅助诊断决策方法,利用Apriori关联规则算法(已属于现有算法)进行病症规则的挖掘,将病症规则的置信度作为标准进行特征排序,然后再依据基分类器的分类效果为标准进行特征子集的序列向前选择划分,选择出最优特征子集后再运用决策树分类器对中文电子病历进行训练,最终将训练好的分类器完成辅助诊断决策任务。通过以下技术方案来实现:一种基于中文电子病历的辅助诊断决策方法,其特征在于,包括如下步骤,一种对中文电子病历数据集中疾病与症状信息进行数据清洗的数据预处理方法,一种基于疾病与症状进行关联规则挖掘的方法,一种基于病症关联规则进行特征选择的方法,一种基于关联规则的特征选择方法在选择出特征向量后进行疾病预测的分类器;所述一种对中文电子病历数据集中疾病与症状信息进行数据清洗的数据预处理方法,该方法首先要去除含有空缺值的中文电子病历数据(已属于现有技术中的常规技术手段),其次对疾病与症状的数据信息进行标准化即统一数据源的属性值,然后进行特征二值化即将字符型数据转化为布尔型的二值数据,最后对疾病类别进行标签编码。所述一种基于疾病与症状进行关联规则挖掘的方法,核心操作为运用Apriori算法对疾病与症状进行关联规则挖掘。所述一种基于病症关联规则进行特征选择的方法,核心操作为对病症的二频繁项集规则进行置信度排序,然后再利用基分类器的分类性能作为特征子集评价标准进行序列向前选择方法SFS选择特征子集。所述一种基于关联规则的特征选择方法在选择出特征向量后进行疾病预测的分类器,核心操作为首先根据以上方法选择出的特征子集,然后再利用决策树分类器对中文电子病历进行训练和预测。有益效果在本专利技术的对中文电子病历数据集中疾病与症状信息进行数据清洗的数据预处理方法中:通过构建近义词词组使症状与疾病数据格式标准化,再将中文电子病历中的症状特征信息转换成布尔型的高维稀疏矩阵。在本专利技术的基于疾病与症状进行关联规则挖掘的方法中:采用Apriori算法对疾病与症状进行关联规则挖掘的过程中,运用了闭频繁集项的方法去除了部分冗余的病症关联规则。在本专利技术的病症关联规则进行特征选择的方法中:通过使用Apriori关联规则算法对疾病与症状的数据集进行规则挖掘,然后通过二频繁项集规则的置信度进行特征排序和以基分类器分类效果为标准的特征子集划分后,比传统的特征选择方法效果更好,特征子集更小。在本专利技术的基于关联规则的特征选择方法在选择出特征向量后进行疾病预测的分类器的方法中:通过上述基于关联规则的特征选择方法获得特征子集后,结合决策树分类器对中文电子病历中疾病与症状数据集进行训练、调参,最终获得疾病分类模型,与传统分类器分类效果相比,分类准确度更高。相较于传统的辅助诊断决策方法,本专利技术从根本上提升了中文电子病历中复杂多症状特征的疾病预测准确率。本研究方法适用于为临床医生提供大量的医学支持,从而帮助临床医生做出最合理的诊断、选择最佳治疗措施。附图说明附图是用来提动对本专利技术的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但不构成对本专利技术的限制。在附图中:图1为基于中文电子病历的辅助诊断决策方法的技术路线图;图2为中文电子病历数据预处理的流程图。图3为基于Apriori算法的挖掘病症2项频繁集的流程图。图4位基于关联规则的特征选择算法的流程图。具体实施方式辅助诊断决策方法是临床决策支持系统(Clinicaldecisionsupportsystem,CDSS)中的一个非常活跃应用分支。目前的辅助诊断决策方法都没能很好的利用中文电子病历数据集、无法有效的挖掘中文电子病历中症状与疾病的关联规则、无法很好地降低症状特征维度、无法很准确地在高维症状特征空间中进行多种疾病的精准分类。针对这些问题,本专利技术给出了一种基于中文电子病历的辅助诊断决策方法。首先将中文电子病历集中的疾病与症状信息进行清洗,然后挖掘疾病与症状事务的关联规则,本专利技术根据疾病与症状事务关联规则的置信度进行排序,并且以基分类器分类结果为基准从中进行特征选择,根据特征选择出的特征向量运用决策树分类器进行疾病分类,实现了对疾病的预测。为了加深对本专利技术的理解,下面将结合已有方法和附图2对本专利技术作进一步详述,已有方法仅用于解释本专利技术,并不构成对本专利技术保护范围的限定。本专利技术所包括的内容:一种基于中文电子病历的辅助诊断决策方法包括四个部分:一种对中文电子病历数据集中疾病与症状信息进行数据清洗的数据预处理方法;一种基于疾病与症状进行关联规则挖掘的方法;一种基于病症关联规则进行特征选择的方法;一种基于关联规则的特征选择方法在选择出特征向量后进行疾病预测的分类器。第一步:对中文电子病历数据集中对疾病与症状信息进行预处理工作,如图2所示。1.1:去除含有空缺本文档来自技高网
...

【技术保护点】
1.一种基于中文电子病历的辅助诊断决策方法,其特征在于,基于中文电子病历的辅助诊断决策方法包括:步骤一、一种对中文电子病历数据集中疾病与症状信息进行数据清洗的数据预处理方法;步骤二、一种基于疾病与症状进行关联规则挖掘的方法;步骤三、一种基于病症关联规则进行特征选择的方法;(关键特色步骤)步骤四、一种基于关联规则的特征选择方法在选择出特征向量后进行疾病预测的分类器。

【技术特征摘要】
1.一种基于中文电子病历的辅助诊断决策方法,其特征在于,基于中文电子病历的辅助诊断决策方法包括:步骤一、一种对中文电子病历数据集中疾病与症状信息进行数据清洗的数据预处理方法;步骤二、一种基于疾病与症状进行关联规则挖掘的方法;步骤三、一种基于病症关联规则进行特征选择的方法;(关键特色步骤)步骤四、一种基于关联规则的特征选择方法在选择出特征向量后进行疾病预测的分类器。2.根据权利要求1所述的基于中文电子病历的辅助诊断决策方法,其特征在于,所述一种对中文电子病历数据集中疾病与症状信息进行数据清洗的数据预处理方法:该方法首先要去除含有空缺值的中文电子病历数据,其次对疾病与症状的数据信息进行标准化即统一数据源的属性值,然后进行特征二值化即将字符型数据转化为布尔型的二值数据,最后对疾病...

【专利技术属性】
技术研发人员:闫凤麒曲艺陆明名
申请(专利权)人:上海熙业信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1