用于医疗文本分类的决策树构建方法及装置制造方法及图纸

技术编号:32225201 阅读:58 留言:0更新日期:2022-02-09 17:30
本公开提供一种用于医疗文本分类的决策树构建方法,包括:构建训练集;构建属性集;如果训练集的各个样本都属于相同类别,则将节点标记为一个类别的叶节点,决策树构建完成,结束;如果属性集为空或无法对训练集进一步划分,则将当前训练集所在的节点标记为叶节点;以及遍历属性集中的每一个属性,选择最优划分属性,将训练集划分为若干子集,如果子集为空,则将包含训练集的分支节点标记为叶节点,类别记为训练集中样本最多的类,构建结束,否则继续遍历。本公开还提供了一种用于医疗文本分类的决策树构建装置、电子设备以及可读存储介质。质。质。

【技术实现步骤摘要】
用于医疗文本分类的决策树构建方法及装置


[0001]本公开涉及一种用于医疗文本分类的决策树构建方法、装置、电子设备及可读存储介质,属于文本分类


技术介绍

[0002]文本分类的相关技术已经取得了很大进展,但是在医疗领域中,文本分类任务与普通场景下的文本分类任务有一定区别,一是表现为医疗领域专业性较强,含有大量的医学专业名称,二是表现为医疗文本类别不均衡的问题,是困扰医疗文本分类准确性的关键,类别不均衡导致模型在学习过程中严重倾向于多数类,无法学习到少数类别的特征。在构建用于医疗文本分类的决策树中,如何解决医疗文本类别不均衡可能导致的特征缺失问题,将会影响决策树对于医疗文本分类的效果。

技术实现思路

[0003]为了解决上述技术问题中的至少一个,本公开提供了一种用于医疗文本分类的决策树构建方法、装置、电子设备及可读存储介质。
[0004]根据本公开的一个方面,提供一种用于医疗文本分类的决策树构建方法,包括:
[0005]构建训练集D={(x1,y1),(x2,y2),
……r/>,(x
...

【技术保护点】

【技术特征摘要】
1.一种用于医疗文本分类的决策树构建方法,其特征在于,包括:构建训练集D={(x1,y1),(x2,y2),
……
,(x
m
,y
m
)},其中,xi表示训练集中的各个样本,yi表示训练集中的样本对应的类别;构建属性集A={a1,a2,a3……
,a
d
},其中,a
d
表示属性;如果训练集D的各个样本xi都属于相同类别,则将节点标记为一个类别的叶节点,决策树构建完成,结束;如果属性集A为空或无法对训练集D进一步划分,则将当前训练集所在的节点标记为叶节点;以及遍历属性集中的每一个属性,选择最优划分属性,将训练集D划分为若干子集Dv,如果Dv为空,则将包含训练集D的分支节点标记为叶节点,类别记为训练集D中样本最多的类,构建结束,否则继续遍历。2.根据权利要求1所述的用于医疗文本分类的决策树构建方法,其特征在于,所述属性集A的构成包括:对训练文本进行分词,统计各个词的词频,将每个词作为属性集A的组成。3.根据权利要求2所述的用于医疗文本分类的决策树构建方法,其特征在于,所述属性集A通过基尼指数划分的方法获取。4.根据权利要求3所述的用于医疗文本分类的决策树构建方法,其特征在于,通过基尼指数划分的方法,包括:对于属性集A中的每一个属性,逐一计算各个属性的基尼指数;以及选取基尼指数值最小的属性作为最终划分集合属性。5.一种用于医疗文本分类的决策树构建装置,其特征在于,包括:训练集构建模块,用于构建训练集,训练集D={(x1,y1),(x2,y2),
……
,(x
m
,y
m...

【专利技术属性】
技术研发人员:张萌周玉
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1