用于医疗文本分类的决策树构建方法及装置制造方法及图纸

技术编号:32225201 阅读:49 留言:0更新日期:2022-02-09 17:30
本公开提供一种用于医疗文本分类的决策树构建方法,包括:构建训练集;构建属性集;如果训练集的各个样本都属于相同类别,则将节点标记为一个类别的叶节点,决策树构建完成,结束;如果属性集为空或无法对训练集进一步划分,则将当前训练集所在的节点标记为叶节点;以及遍历属性集中的每一个属性,选择最优划分属性,将训练集划分为若干子集,如果子集为空,则将包含训练集的分支节点标记为叶节点,类别记为训练集中样本最多的类,构建结束,否则继续遍历。本公开还提供了一种用于医疗文本分类的决策树构建装置、电子设备以及可读存储介质。质。质。

【技术实现步骤摘要】
用于医疗文本分类的决策树构建方法及装置


[0001]本公开涉及一种用于医疗文本分类的决策树构建方法、装置、电子设备及可读存储介质,属于文本分类


技术介绍

[0002]文本分类的相关技术已经取得了很大进展,但是在医疗领域中,文本分类任务与普通场景下的文本分类任务有一定区别,一是表现为医疗领域专业性较强,含有大量的医学专业名称,二是表现为医疗文本类别不均衡的问题,是困扰医疗文本分类准确性的关键,类别不均衡导致模型在学习过程中严重倾向于多数类,无法学习到少数类别的特征。在构建用于医疗文本分类的决策树中,如何解决医疗文本类别不均衡可能导致的特征缺失问题,将会影响决策树对于医疗文本分类的效果。

技术实现思路

[0003]为了解决上述技术问题中的至少一个,本公开提供了一种用于医疗文本分类的决策树构建方法、装置、电子设备及可读存储介质。
[0004]根据本公开的一个方面,提供一种用于医疗文本分类的决策树构建方法,包括:
[0005]构建训练集D={(x1,y1),(x2,y2),
……
,(x
m
,y
m
)},其中,xi表示训练集中的各个样本,yi表示训练集中的样本对应的类别;
[0006]构建属性集A={a1,a2,a3……
,a
d
},其中,a
d
表示属性;
[0007]如果训练集D的各个样本xi都属于相同类别,则将节点标记为一个类别的叶节点,决策树构建完成,结束;
[0008]如果属性集A为空或无法对训练集D进一步划分,则将当前训练集所在的节点标记为叶节点;以及,
[0009]遍历属性集中的每一个属性,选择最优划分属性,将训练集D划分为若干子集Dv,如果Dv为空,则将包含训练集D的分支节点标记为叶节点,类别记为训练集D中样本最多的类,构建结束,否则继续遍历。
[0010]根据本公开至少一个实施方式的用于医疗文本分类的决策树构建方法,所述属性集A的构成包括:对训练文本进行分词,统计各个词的词频,将每个词作为属性集A的组成。
[0011]根据本公开至少一个实施方式的用于医疗文本分类的决策树构建方法,所述属性集A通过基尼指数划分的方法获取。
[0012]根据本公开至少一个实施方式的用于医疗文本分类的决策树构建方法,通过基尼指数划分的方法,包括:
[0013]对于属性集A中的每一个属性a,逐一计算各个属性的基尼指数;以及,
[0014]选取基尼指数值最小的属性作为最终划分集合属性。
[0015]根据本公开的又一个方面,提供一种用于医疗文本分类的决策树构建装置,包括:
[0016]训练集构建模块,用于构建训练集,训练集D={(x1,y1),(x2,y2),
……
,(x
m
,y
m
)},
其中,xi表示训练集中的各个样本,yi表示训练集中的样本对应的类别;
[0017]属性集构建模块,用于构建属性集,属性集A={a1,a2,a3……
,a
d
},其中,a
d
表示属性;
[0018]决策树生成模块,基于训练集和属性集生成决策树,包括:
[0019]如果训练集D的各个样本xi都属于相同类别,则将节点标记为一个类别的叶节点,决策树构建完成,结束;
[0020]如果属性集A为空或无法对训练集D进一步划分,则将当前训练集所在的节点标记为叶节点;以及,
[0021]遍历属性集中的每一个属性,选择最优划分属性,将训练集D划分为若干子集Dv,如果Dv为空,则将包含训练集D的分支节点标记为叶节点,类别记为训练集D中样本最多的类,构建结束,否则继续遍历。
[0022]根据本公开至少一个实施方式的用于医疗文本分类的决策树构建装置,所述属性集A的构成包括:对训练文本进行分词,统计各个词的词频,将每个词作为属性集A的组成。
[0023]根据本公开至少一个实施方式的用于医疗文本分类的决策树构建装置,所述属性集A通过基尼指数划分的方法获取。
[0024]根据本公开至少一个实施方式的用于医疗文本分类的决策树构建装置,通过基尼指数划分的方法,包括:
[0025]对于属性集A中的每一个特征属性a,逐一计算各个属性的基尼指数;以及,
[0026]选取基尼指数值最小的属性作为最终划分集合属性。
[0027]根据本公开的又一个方面,提供一种电子设备,包括:
[0028]存储器,所述存储器存储执行指令;以及,
[0029]处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
[0030]根据本公开的又一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。
附图说明
[0031]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0032]图1是根据本公开的一个实施方式的用于医疗文本分类的决策树构建方法流程示意图。
[0033]图2是根据本公开的一个实施方式的用于医疗文本分类的决策树构建装置结构示意图
[0034]附图标记说明
[0035]1000 决策树构建装置
[0036]1002 训练集构建模块
[0037]1004 属性集构建模块
[0038]1006 决策树生成模块
[0039]1100 总线
[0040]1200 处理器
[0041]1300 存储器
[0042]1400 其他电路。
具体实施方式
[0043]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
[0044]需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0045]除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
[0046]在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于医疗文本分类的决策树构建方法,其特征在于,包括:构建训练集D={(x1,y1),(x2,y2),
……
,(x
m
,y
m
)},其中,xi表示训练集中的各个样本,yi表示训练集中的样本对应的类别;构建属性集A={a1,a2,a3……
,a
d
},其中,a
d
表示属性;如果训练集D的各个样本xi都属于相同类别,则将节点标记为一个类别的叶节点,决策树构建完成,结束;如果属性集A为空或无法对训练集D进一步划分,则将当前训练集所在的节点标记为叶节点;以及遍历属性集中的每一个属性,选择最优划分属性,将训练集D划分为若干子集Dv,如果Dv为空,则将包含训练集D的分支节点标记为叶节点,类别记为训练集D中样本最多的类,构建结束,否则继续遍历。2.根据权利要求1所述的用于医疗文本分类的决策树构建方法,其特征在于,所述属性集A的构成包括:对训练文本进行分词,统计各个词的词频,将每个词作为属性集A的组成。3.根据权利要求2所述的用于医疗文本分类的决策树构建方法,其特征在于,所述属性集A通过基尼指数划分的方法获取。4.根据权利要求3所述的用于医疗文本分类的决策树构建方法,其特征在于,通过基尼指数划分的方法,包括:对于属性集A中的每一个属性,逐一计算各个属性的基尼指数;以及选取基尼指数值最小的属性作为最终划分集合属性。5.一种用于医疗文本分类的决策树构建装置,其特征在于,包括:训练集构建模块,用于构建训练集,训练集D={(x1,y1),(x2,y2),
……
,(x
m
,y
m...

【专利技术属性】
技术研发人员:张萌周玉
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1