用于医疗文本的基于决策树的模型训练方法和装置制造方法及图纸

技术编号:36797349 阅读:10 留言:0更新日期:2023-03-08 23:15
本公开提供一种用于医疗文本的基于决策树的模型训练方法和装置,该方法包括:数据预处理步骤,针对医学概念,对医疗样本进行数据预处理以获得多个特征;样本划分步骤,计算各个特征在决策树的根节点处的信息度量值,选择具备最大信息度量值的特征放置在根节点处,并且基于特征是否存在于医疗样本中将医疗样本划分为两个叶节点;递归步骤,重复样本划分步骤,直到满足无需划分或不能划分的条件;路径生成步骤,依次记录满足预定标准的、在递归步骤中到达各个叶节点的特征集合为关键路径;以及路径更新步骤,基于医学知识进行更新以获得更新后的关键路径,医学知识包括与医学概念相关联的多个特征。基于决策树能够实现高效高质提取医学特征。提取医学特征。提取医学特征。

【技术实现步骤摘要】
用于医疗文本的基于决策树的模型训练方法和装置


[0001]本公开涉及数据处理领域,并且具体地,涉及一种用于医疗文本的基于决策树的模型训练方法。

技术介绍

[0002]医疗健康数据的多源异构性、复杂性和海量性以及临床和用户的信息需求给传统的数据分析和处理带来了巨大挑战。随着大数据和人工智能技术的迅速发展以及相关应用的日趋成熟,医疗健康数据分析迫切需要新的突破。
[0003]医疗文本结构化、标准化是医疗领域信息处理的基础,并且已经成为医疗健康信息抽取和知识发现中重要的研究方向。对医疗文本实体识别后,如何将用户非标准化表述映射到标准的医学术语,更成为医疗健康信息处理和知识挖掘的关键环节。
[0004]现有的实体标准化方法大多基于实体提及与标准术语的向量化编码,采用无监督或有监督算法计算相似度得分,排序选出最相似的标准术语。在实体标准化过程中,标准术语特征提取是一个关键步骤,在实际使用中,由于标准术语集合庞大,同时医疗术语表述不够规范,而且存在大量口语化表述,人力标注术语特征成本太高,如何高效、高质提取特征,对最终的归一效果形成了很大挑战。

技术实现思路

[0005]为了有效提高实体标准化的效果,同时降低标注语料的数据量,本公开提出了一种用于医疗文本的基于决策树的模型训练方法,通过海量数据分析,计算特征的信息度量值,提取医学概念的特征,从而实现高效高质提取特征。
[0006]根据本公开的一方面,提供了一种用于医疗文本的基于决策树的模型训练方法,该方法包括:数据预处理步骤,对作为训练数据的多个医疗样本进行标注以获得包括多个医学概念的医疗概念集合,针对多个医学概念中的第一医学概念,对多个医疗样本进行数据预处理以获得多个特征;样本划分步骤,计算多个特征中的各个特征在决策树的根节点处的信息度量值,选择多个特征中具备最大信息度量值的第一特征放置在根节点处,并且基于第一特征是否存在于多个医疗样本中将多个医疗样本划分为两个叶节点;递归步骤,在每个叶节点处重复样本划分步骤,直到满足无需划分或不能划分的条件;路径生成步骤,依次记录满足预定标准的、在递归步骤中到达各个叶节点的特征集合为关键路径;以及路径更新步骤,基于数据库中存储的一个或多个医学知识,对关键路径进行更新以获得更新后的关键路径,一个或多个医学知识的每个包括与第一医学概念相关联的多个特征;其中,在路径更新步骤中,通过判断关键路径的特征集合是否与至少一个医学知识中的多个特征匹配,来确定是否更新关键路径。
[0007]根据本公开的实施例,当关键路径的特征集合包括至少一个医学知识中的全部特征时,确定关键路径与医学知识匹配,无需更新关键路径,并且使用关键路径作为更新后的关键路径。
[0008]根据本公开的实施例,当关键路径中缺少一个或多个医学知识中的任意一个医学知识中的至少一个特征时,确定关键路径与医学知识不匹配,并对关键路径中的特征进行处理,以更新关键路径。
[0009]根据本公开的实施例,对关键路径中的特征进行处理包括:计算缺少的特征的信息度量值;将满足预定标准的缺少的特征增加到关键路径中,记录更新的关键路径作为更新后的关键路径,其中,增加的特征用作叶节点,将关键路径中的医疗样本划分为两个叶节点,以及随机丢弃划分到关键属性路径的医疗样本的一部分,并且将除去医疗样本的一部分的医疗样本的剩余部分分类为第一医学概念。
[0010]根据本公开的实施例,所丢弃的医疗样本的一部分为医疗样本的10%。
[0011]根据本公开的实施例,在数据预处理步骤中:使用切词处理对多个医疗样本进行切词以获得多个特征;统计多个特征中的每个特征在多个医疗样本中的数量以及包括每个特征的医疗样本被分类为相应的医学概念的数量;计算每个特征的条件概率其中v取值为0或1,v值为1时D
V
表示多个医疗样本中v类特征的数量,v值为0时D
V
表示多个医疗样本中没有v类特征的数量;k取值为0或1,k值为1时表示v类特征的医疗样本中k类医学概念的数量,k值为0时表示v类特征的医疗样本中不是k类医学概念的数量。
[0012]根据本公开的实施例,在样本划分步骤中,计算每个特征在根节点或叶节点处的信息度量值的步骤为:
[0013]a)计算每个特征的基尼值
[0014][0015]b)计算每个特征的基尼指数
[0016][0017]根据本公开的实施例,该条件包括:a)根节点或叶节点包含的医疗样本全部属于同一类别,无需划分;b)根节点或叶节点处的特征集合为空,或是所有医疗样本在所有根节点或叶节点上的取值相同,无法划分;或c)根节点或叶节点包含的特征集合为空,不能划分。
[0018]根据本公开的实施例,每个医学知识分配有对应权重,在计算每个特征的信息度量值时加入对应权重为:其中w为对应权重;并且根据样本划分步骤、递归步骤和路径生成步骤生成新的关键路径。
[0019]根据本公开的另一方面,提供了一种用于医疗文本的基于决策树的模型训练装置,该装置包括:数据预处理模块,被配置为对作为训练数据的多个医疗样本进行标注以获得包括多个医学概念的医疗概念集合,针对多个医学概念中的第一医学概念,对多个医疗样本进行数据预处理以获得多个特征;样本划分模块,被配置为计算多个特征中的各个特征在决策树的根节点处的信息度量值,选择多个特征中具备最大信息度量值的第一特征放置在根节点处,并且基于第一特征是否存在于多个医疗样本中将多个医疗样本划分为两个
叶节点;递归模块,被配置为在每个叶节点处重复样本划分步骤,直到满足无需划分或不能划分的条件;路径生成模块,被配置为依次记录满足预定标准的、在递归步骤中到达各个叶节点的特征集合为关键路径;以及路径更新模块,被配置为基于数据库中存储的一个或多个医学知识,对关键路径进行更新以获得更新后的关键路径,一个或多个医学知识的每个包括与第一医学概念相关联的多个特征;其中,在路径更新模块中,通过判断关键路径的特征集合是否与至少一个医学知识中的多个特征匹配,来确定是否更新关键路径。
[0020]根据本公开的另一方面,提供了一种基于决策树的医疗文本的特征提取方法,该方法包括:特征提取步骤,将医疗文本输入训练后的特征提取模型以提取与医学概念对应的特征,其中,训练后的特征提取模型是基于上述用于医疗文本的基于决策树的模型训练方法获得的。
[0021]根据本公开的另一方面,提供了一种基于决策树的医疗文本的特征提取装置,该装置包括:特征提取模块,被配置为将医疗文本输入训练后的特征提取模型以提取与医学概念对应的特征,其中,训练后的特征提取模型是基于上述用于医疗文本的基于决策树的模型训练方法获得的。
[0022]根据本公开的又一方面,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令在由处理器执行时实现上述基于决策树的医疗文本的特征提取方法。
[0023]根据本公开的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令在由处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于医疗文本的基于决策树的模型训练方法,其中,所述方法包括:数据预处理步骤,对作为训练数据的多个医疗样本进行标注以获得包括多个医学概念的医疗概念集合,针对所述多个医学概念中的第一医学概念,对所述多个医疗样本进行数据预处理以获得多个特征;样本划分步骤,计算所述多个特征中的各个特征在所述决策树的根节点处的信息度量值,选择所述多个特征中具备最大信息度量值的第一特征放置在所述根节点处,并且基于所述第一特征是否存在于所述多个医疗样本中将所述多个医疗样本划分为两个叶节点;递归步骤,在每个叶节点处重复所述样本划分步骤,直到满足无需划分或不能划分的条件;路径生成步骤,依次记录满足预定标准的、在所述递归步骤中到达各个叶节点的特征集合为关键路径;以及路径更新步骤,基于所述数据库中存储的一个或多个医学知识,对所述关键路径进行更新以获得更新后的关键路径,所述一个或多个医学知识的每个包括与所述第一医学概念相关联的多个特征;其中,在所述路径更新步骤中,通过判断所述关键路径的特征集合是否与至少一个医学知识中的多个特征匹配,来确定是否更新所述关键路径。2.根据权利要求1所述的方法,其中,当所述关键路径的特征集合包括至少一个医学知识中的全部特征时,确定所述关键路径与医学知识匹配,无需更新所述关键路径,并且使用所述关键路径作为所述更新后的关键路径。3.根据权利要求1所述的方法,其中,当所述关键路径中缺少所述一个或多个医学知识中的任意一个医学知识中的至少一个特征时,确定所述关键路径与医学知识不匹配,并对所述关键路径中的特征进行处理,以更新所述关键路径。4.根据权利要求3所述的方法,其中,对所述关键路径中的特征进行处理包括:计算缺少的特征的信息度量值;将满足所述预定标准的所述缺少的特征增加到所述关键路径中,记录更新的所述关键路径作为所述更新后的关键路径,其中,增加的特征用作叶节点,将所述关键路径中的医疗样本划分为两个叶节点,以及随机丢弃划分到所述关键属性路径的医疗样本的一部分,并且将除去所述医疗样本的一部分的所述医疗样本的剩余部分分类为所述第一医学概念。5.根据权利要求4所述的方法,其中,所丢弃的所述医疗样本的一部分为所述医疗样本的10%。6.根据权利要求1所述的方法,其中,在所述数据预处理步骤中:使用切词处理对所述多个医疗样本进行切词以获得所述多个特征;统计所述多个特征中的每个特征在所述多个医疗样本中的数量以及包括每个特征的医疗样本被分类为相应的医学概念的数量;计算每个特征的条件概率其中v取值为0或1,v值为1时D
V
表示所述多个医疗样本中v类特征的数量,v值为0时D
V
表示所述多个医疗样本中没有所述v类特征的数量;k取
值为0或1,k值为1时表示所述v类特征的医疗样本中k类医学概念的数量,k值为0时表示所述v类特征的医疗样本中不是所述k类医学概念的数量。7.根据权利要求6所述的方法,其中,...

【专利技术属性】
技术研发人员:刘京华徐辉强
申请(专利权)人:北京壹永科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1