一种基于决策树的医学检测指标筛选方法技术

技术编号:17100702 阅读:25 留言:0更新日期:2018-01-21 11:57
本发明专利技术涉及一种基于决策树的医学检测指标筛选方法,包括以下步骤:S1,获取多个样本的各项医学检测指标数据,所述的样本被分为多个类别;S2,将决策树训练方法中选用的医学检测指标作为筛选出来的医学检测指标,所述的决策树的叶节点为类别,节点的测试属性为医学检测指标。与现有技术相比,本发明专利技术对已知分类结果的医学样本进行数据计算,总结了医学专家的经验,将医学检测指标与类别中的隐含关系挖掘出来,筛选出相关性较大的医学检测指标,可为未来临床医学诊断提供参考,提高诊断效率。

A method of screening medical detection indexes based on decision tree

The invention relates to a method for screening medicine detection index based on decision tree, which comprises the following steps: S1, data of the medical examination indexes and obtaining a plurality of samples, the samples are divided into several categories; S2, medical detection index selection decision tree training method as the medical examination indexes were screened out the leaf node of the decision tree, the test for Category attribute node for medical detection index. Compared with the prior art, the invention of medicine samples of known classification results for data calculation, summarizes the experience of medical experts, to dig out the hidden relationship of medical detection indicators and categories, selected medical detection index correlated, for future clinical diagnosis and provide reference, to improve the efficiency of diagnosis.

【技术实现步骤摘要】
一种基于决策树的医学检测指标筛选方法
本专利技术涉及一种数据处理方法,尤其是涉及一种基于决策树的医学检测指标筛选方法。
技术介绍
在临床医学中,多年的门诊积累了大量患者的检测数据,然而这些检测数据种类多,数据量大,如何筛选出相关性较大的检测指标用于诊断,一直是医务人员非常关心的问题。如果利用这些检测数据发现检测数据内部及数据之间隐藏的规律,则可以提高诊断效率。医学数据的挖掘和处理重在从已知医学数据本身出发,能够提炼数据中的知识,总结医学专家的经验,是近年来医学信息领域颇受关注的研究方向。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于决策树的医学检测指标筛选方法。本专利技术的目的可以通过以下技术方案来实现:一种基于决策树的医学检测指标筛选方法,包括以下步骤:S1,获取多个样本的各项医学检测指标数据,所述的样本被分为多个类别;S2,将决策树训练方法中选用的医学检测指标作为筛选出来的医学检测指标,所述的决策树的叶节点为类别,节点的测试属性为医学检测指标。所述的决策树训练过程中,选择具有最高信息增益的属性作为当前节点的测试属性。所述的信息增益计算过程包括以下步骤:1)计算对给定数据分类需要的信息量;2)计算利用测试属性划分当前节点样本集合所需要的信息熵;3)步骤2)计算结果减去步骤1)计算结果即为当前节点的测试属性的信息增益。所述的信息量计算式为:其中,当前节点s个样本被划分为m个不同类别Ci,i∈{1,2,3,…,m},si为类别Ci中的样本个数,pi是任意一个样本属于类别Ci的概率,其中的log函数以2为底。所述的任意一个样本属于类别Ci的概率pi=si/s。所述的信息熵计算式为:其中,A表示当前节点的测试属性,A取v种不同的值,利用A将s个样本划分为v个子集{S1,S2,…Sj…,Sv},其中Sj包含了s个样本中属性A取aj值的样本,sij为子集Sj中属于Ci类别的样本数。所述的医学检测指标包括嗜酸性粒细胞占白细胞总数的百分比EOS%(percentageofEOSinophils)、第1秒用力呼气量FEV1(ForcedExpiratoryVolumein1second)在用力肺活量FVC(ForcedVitalCapacity)中所占比例FEV1/FVC(FEV1/FVCratio)、最大用力呼气峰流量PEF(PeakExpiratoryFlow)、呼出气体25%-75%肺容积平均流MMEF75/25(MaximalMid-ExpiratoryFlow≥25%and≤75)和呼出气一氧化氮FENO(FractionalExhaledNitricOxide)。所述的样本被分为两类,为咳嗽患者和非咳嗽患者。与现有技术相比,本专利技术具有以下优点:(1)对已知分类结果的医学样本进行数据计算,总结了医学专家的经验,将医学检测指标与类别中的隐含关系挖掘出来,筛选出相关性较大的医学检测指标,可为未来临床医学诊断提供参考,提高诊断效率。(2)采用决策树训练中的信息熵方法,决策树的生成是一个递归过程,能依次产生每一层节点的测试属性,从而得到与类别的相关性依次递减的医学检测指标。附图说明图1为本专利技术方法流程图;图2为本实施例生成的决策树;图3为本实施例中对各类指标重要性的计算结果。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。实施例在决策树方法中,通常使用信息增益方法来帮助确定生成每个结点时所应采用的合适属性。这样就可以选择具有最高信息增益(信息熵减少的程度最大)的属性作为当前结点的测试属性,从而使对之划分所获得的训练样本子集进行分类所需要的信息最小,也就是说,利用该属性对当前样本集合划分,将会使得所产生的各样本子集中的“不同类别混合程度”降为最低。因此采用这种信息熵方法有助于减少对象分类所需要的划分次数。设S为一个包含s个数据样本的集合,类别属性可以取m个不同的值,对应于m个不同的类别Ci,i∈{1,2,3,…,m}。假设si为类别Ci中的样本个数,那么要对一个给定数据对象进行分类所需要的信息量为:其中,pi是任意一个数据对象属于类别Ci的概率,可以按si/s计算。其中的log函数以2为底。设一个属性A取v个不同的值{a1,a2,…,av}。利用属性A可以将集合S划分成v个子集{S1,S2,…,Sv},其中Sj包含了S集合中属性A取aj值的数据样本。若属性A被选为测试属性(用于对当前样本集进行划分),设sij为子集Sj中属于Ci类别的样本数。那么利用属性A划分当前样本集合所需要的信息熵可以如下计算:其中项为第j个子集的权值,它是由所有子集中属性A取aj值的样本数之和除以S集合中的样本总数。E(A)计算结果越小,就表示其子集划分结果越好。而对于一个给定子集Sj,它的信息为:其中,即为子集Sj中任一个数据样本属于类别Ci的概率。这样利用属性A对当前分支结点进行相应样本集合划分所获得的信息增益就是:Gain(A)=I(s1,s2,...,sm)-E(A)(4)即Gain(A)为根据属性A取值进行样本集合划分所获得的(信息)熵的减少量。决策树算法通过计算每个属性的信息增益,并从中挑选出信息增益最大的属性作为给定集合S的测试属性并由此产生相应的分支结点。所产生的结点标记为相应的属性,并根据这一属性的不同取值分别产生相应的决策树分支,每个分支代表一个被划分的样本子集。决策树的生成是一个递归过程。其算法实现遵循简单而且直观的“分而治之”策略。在决策树算法中,有三种情形会导致递归返回:(1)当前结点包含的样本全属于同一类别,无需划分;(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;(3)当前结点包含的样本集合为空,不能划分。在第(2)种情况下,决策树算法将当前结点标记为叶结点,并将其类别设定为该结点所含样本最多的类别;在第(3)种情形下,将当前结点标记为叶结点,但将其类别设定为其父结点所含样本最多的类别。该决策树算法实现的具体流程如表1所示。表1决策树算法流程本实施例将本专利技术的医学检测指标筛选方法应用于咳嗽检测指标的提取,采用决策树对临床采集的咳嗽检测指标(包括EOS%、FEV1/FVC、PEF、MMEF75/25、FENO等)进行了分类建模。实验结果显示FENO、EOS%对咳嗽明确诊断的影响较大,是咳嗽诊断的重要检测指标。具体如下:实验的硬件环境为IntelCorei7-5600UCPU@2.60GHz,内容为12GB。软件环境为winodows7(64位)。编程环境为java。测试数据集为某医院真实收集的咳嗽检测样本,样本个数为60例(其中42例为患者样本,18例为普通人样本)。用于检测的指标属性为7个,分别包括EOS%、FEV1/FVC、PEF、MMEF75/25、FENO等。数据类别包括患者和非患者二类,分别用“1”和“2”表示。样本实验所用部分数据如表2所示。表2咳嗽检测指标数据样本在决策树分类实验中,采用信息熵的方法对所有的咳嗽检测指标属性进行了重要性计算。各指标的重要性如图3所示。从图3中可以看出,EOS%和FENO的重要性尤为突出,数据值均超过本文档来自技高网...
一种基于决策树的医学检测指标筛选方法

【技术保护点】
一种基于决策树的医学检测指标筛选方法,其特征在于,包括以下步骤:S1,获取多个样本的各项医学检测指标数据,所述的样本被分为多个类别;S2,将决策树训练方法中选用的医学检测指标作为筛选出来的医学检测指标,所述的决策树的叶节点为类别,节点的测试属性为医学检测指标。

【技术特征摘要】
1.一种基于决策树的医学检测指标筛选方法,其特征在于,包括以下步骤:S1,获取多个样本的各项医学检测指标数据,所述的样本被分为多个类别;S2,将决策树训练方法中选用的医学检测指标作为筛选出来的医学检测指标,所述的决策树的叶节点为类别,节点的测试属性为医学检测指标。2.根据权利要求1所述的一种基于决策树的医学检测指标筛选方法,其特征在于,所述的决策树训练过程中,选择具有最高信息增益的属性作为当前节点的测试属性。3.根据权利要求2所述的一种基于决策树的医学检测指标筛选方法,其特征在于,所述的信息增益计算过程包括以下步骤:1)计算对给定数据分类需要的信息量;2)计算利用测试属性划分当前节点样本集合所需要的信息熵;3)步骤2)计算结果减去步骤1)计算结果即为当前节点的测试属性的信息增益。4.根据权利要求3所述的一种基于决策树的医学检测指标筛选方法,其特征在于,所述的信息量计算式为:其中,当前节点s个样本被划分为m个不同类别Ci,i∈{1,2,3,…,m},si为类别Ci中的样本个数,pi是任意一个样...

【专利技术属性】
技术研发人员:张挺
申请(专利权)人:上海电力学院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1