一种决策树的建立方法、装置、终端设备及介质制造方法及图纸

技术编号:27577578 阅读:7 留言:0更新日期:2021-03-09 22:28
本申请适用于计算机技术领域,提供了一种决策树的建立方法、装置、终端设备及介质,所述方法包括:获取多组样本数据,并提取每组样本数据的样本特征;将所述多组样本数据划分为多个数据集合;其中,每个数据集合中包含两组样本数据;根据所述每组样本数据的样本特征,确定每个数据集合中两组样本数据之间的差异属性;根据所述差异属性,确定决策树的节点,建立所述决策树。通过上述方法,可以构建一个用于疾病分类的简易决策树,运用于临床诊断。运用于临床诊断。运用于临床诊断。

【技术实现步骤摘要】
一种决策树的建立方法、装置、终端设备及介质


[0001]本申请属于计算机
,尤其涉及一种决策树的建立方法、装置、终端设备及介质。

技术介绍

[0002]决策树方法是通过一系列规则对数据进行分类的过程。决策树是一个类似流程图的树状结构,每个内部节点表示在一个特征上的测试,每个分支表示一个测试输出,每个叶节点表示一类。决策树是基于逻辑判断,分类结果简单、结构直观,可以很好地辅助医生进行诊断。
[0003]现有的决策树建立方法一般分为两步:
[0004]1.利用训练数据集通过机器学习的方法建立一个决策树模型。
[0005]2.利用生成的决策树对输入数据进行分类。
[0006]但是,现有的决策树建立方法中,涉及较多复杂的机器学习计算,统计分类,数学编程,有些情况下受到数据驱动得到的结果临床意义不明确,导致决策树在医学领域的实用性比较差。

技术实现思路

[0007]本申请实施例提供了一种决策树的建立方法、装置、终端设备及介质,可以构建一个用于疾病分类的简易决策树,运用于临床诊断。
[0008]第一方面,本申请实施例提供了一种决策树的建立方法,所述方法包括:
[0009]获取多组样本数据,并提取每组样本数据的样本特征;
[0010]将所述多组样本数据划分为多个数据集合;其中,每个数据集合中包含两组样本数据;
[0011]根据所述每组样本数据的样本特征,确定每个数据集合中两组样本数据之间的差异属性;
[0012]根据所述差异属性,确定决策树的节点,建立所述决策树。
[0013]第二方面,本申请实施例提供了一种决策树的建立装置,所述装置包括:
[0014]样本数据获取模块,用于获取多组样本数据,并提取每组样本数据的样本特征;
[0015]数据集合划分模块,用于将所述多组样本数据划分为多个数据集合;其中,每个数据集合中包含两组样本数据;
[0016]差异属性确定模块,用于根据所述每组样本数据的样本特征,确定每个数据集合中两组样本数据之间的差异属性;
[0017]节点确定模块,用于根据所述差异属性,确定决策树的节点,建立所述决策树。
[0018]第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。
等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0033]在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0034]图1是本申请实施例一提供的一种决策树的建立方法的流程示意图,如图1所示,所述方法包括:
[0035]S101,获取多组样本数据,并提取每组样本数据的样本特征;
[0036]本实施例的执行主体为终端设备。
[0037]上述多组样本数据,可以为已经分类好的数据,每组样本数据为一类。这些样本数据可以为临床医学数据,比如磁共振影像数据。
[0038]利用定量工具分别提取各个样本数据的样本特征。样本特征可以包括多个特征指标,比如血压、海马体积等等,每个特征指标包括对应的特征值。
[0039]S102,将所述多组样本数据划分为多个数据集合;其中,每个数据集合中包含两组样本数据;
[0040]具体地,将每两组样本数据作为一个数据集合。每组样本数据是一类数据,将两组样本数据作为一个数据集合来进行比较,可以方便计算这两类数据之间在哪些特征指标上存在显著差异。
[0041]S103,根据所述每组样本数据的样本特征,确定每个数据集合中两组样本数据之间的差异属性;
[0042]上述差异属性是指两组样本数据在差异属性所代表的这一特征指标上具有显著差异,因此能采用差异属性能够区分出这两组样本数据。
[0043]具体地,分别计算每个数据集合中两组样本数据的各个特征指标之间的特征差异值;若特征差异值满足预设条件,则将特征差异值对应的特征指标作为该数据集合的差异特征指标,每个数据集合的差异特征指标包括一个或多个指标;然后根据一个或多个差异特征指标,确定所述数据集合的差异属性。
[0044]具体地,若数据集合只包括一个差异特征指标,则将该差异特征指标作为数据集合的差异属性;若数据集合中包括多个差异特征指标,则分别计算各个差异特征指标的相关性,并对相关性大于预设值的多个差异特征指标进行合并;确定合并后得到的各个差异特征指标对应的特征差异值;将特征差异值中最大值对应的差异特征指标作为数据集合的差异属性。
[0045]在另一种可能的实现方式中,也可以分别计算每个数据集合中两组样本数据的各个特征指标之间的特征差异值,然后根据特征差异值,选择两组样本数据差异最显著的一项特征指标作为数据集合的差异属性。
[0046]具体地,可以对每组数据集合中的两组样本进行独立t检验,将每个特征指标对应的p值作为特征指标对应的特征差异值,若p值小于预设值,则说明两组数据在这一特征指标上具有显著差异,将该特征指标作为该数据集合的差异特征指标。一般地,预设值可以设
为0.05。
[0047]将所有p值小于0.05的特征指标作为数据集合的差异特征指标。若该数据集合中只包括一个差异特征指标,则将该差异特征指标作为该数据集合的差异属性。若数据集合中包括多个差异特征指标,可以先计算这些差异特征指标之间的相关性,然后将相关性比较大的差异特征指标合并为一个差异特征指标;若合并后数据集合只剩下一个差异特征指标,则将该差异特征指标作为数据集合的差异属性。若进行特征合并后,该数据集合还包括多个差异特征指标,则可以分别计算每个差异特征指标对应的特征差异值;根据特征差异值,选取两组样本数据差异最显著的一项特征指标作为数据集合的差异属性。
[0048]在另一种可能的实现方式中,可以在将相关性比较大的差异特征指标合并为一个差异特征指标后,将数据集合所对应的差异指标全部保留,为数据集合确定一个差异属性集合。
[0049]在另一种可能的实现方式中,可以对每组数据集合中的两组样本进行独立t检验,将每个特征指标对应的p值作为特征指标对应的特征差异值,然后直接选择p值最小的一个特征指标作为该数据集合的差异属性。
[0050]S104,根据所述差异属性,确定决策树的节点,建立所述决策树。
[0051]具体地,决策树的节点的属性和分类阈值,是决策树分类的一个依据。在本实施例中,采用差异属性来确定决策树的节点属性。...

【技术保护点】

【技术特征摘要】
1.一种决策树的建立方法,其特征在于,包括:获取多组样本数据,并提取每组样本数据的样本特征;将所述多组样本数据划分为多个数据集合;其中,每个数据集合中包含两组样本数据;根据所述每组样本数据的样本特征,确定每个数据集合中两组样本数据之间的差异属性;根据所述差异属性,确定决策树的节点,建立所述决策树。2.如权利要求1所述的方法,其特征在于,所述样本特征包括多个特征指标,每个特征指标具有对应的特征值,所述根据所述样本特征,确定每个所述数据集合中两组所述样本数据的差异属性,包括:分别计算每个数据集合中两组样本数据的各个特征指标之间的特征差异值;若所述特征差异值满足预设条件,则将所述特征差异值对应的特征指标作为所述数据集合的差异特征指标,所述差异特征指标包括一个或多个指标;根据一个或多个差异特征指标,确定所述数据集合的差异属性。3.如权利要求2所述的方法,其特征在于,所述分别计算所述数据集合中两组所述样本数据的所述多个特征指标对应的特征差异值,包括:对每个数据集合中两组样本数据进行独立t检验,将检验结果中每个特征指标对应的p值作为所述特征指标的特征差异值。4.如权利要求3所述的方法,其特征在于,所述若所述特征差异值满足预设条件,则将所述特征差异值对应的特征指标作为所述数据集合的差异特征指标,包括:若所述特征指标对应的p值小于预设数值,则将所述特征指标作为所述数据集合的差异特征指标。5.如权利要求2所述的方法,其特征在于,所述确定其中一个所述差异特征指标作为所述数据集合的差异属性,包括:若所述数据集合只包括一个差异特征指标,则将所述差异特征指标作为所述数据集合的差异属性;若所述数据集合中包括多个差异特征指标,则分别计算各个差异特征指标的相关性,并对所述相关性大于预设值的多个差异特征指标进行合并;确定...

【专利技术属性】
技术研发人员:罗怡珊
申请(专利权)人:深圳博脑医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1