用于医疗文本的基于决策树的模型训练方法和装置制造方法及图纸

技术编号：36797349 阅读：10 留言：0更新日期：2023-03-08 23:15

本公开提供一种用于医疗文本的基于决策树的模型训练方法和装置，该方法包括：数据预处理步骤，针对医学概念，对医疗样本进行数据预处理以获得多个特征；样本划分步骤，计算各个特征在决策树的根节点处的信息度量值，选择具备最大信息度量值的特征放置在根节点处，并且基于特征是否存在于医疗样本中将医疗样本划分为两个叶节点；递归步骤，重复样本划分步骤，直到满足无需划分或不能划分的条件；路径生成步骤，依次记录满足预定标准的、在递归步骤中到达各个叶节点的特征集合为关键路径；以及路径更新步骤，基于医学知识进行更新以获得更新后的关键路径，医学知识包括与医学概念相关联的多个特征。基于决策树能够实现高效高质提取医学特征。提取医学特征。提取医学特征。

全部详细技术资料下载

【技术实现步骤摘要】
用于医疗文本的基于决策树的模型训练方法和装置

[0001]本公开涉及数据处理领域，并且具体地，涉及一种用于医疗文本的基于决策树的模型训练方法。

技术介绍

[0002]医疗健康数据的多源异构性、复杂性和海量性以及临床和用户的信息需求给传统的数据分析和处理带来了巨大挑战。随着大数据和人工智能技术的迅速发展以及相关应用的日趋成熟，医疗健康数据分析迫切需要新的突破。
[0003]医疗文本结构化、标准化是医疗领域信息处理的基础，并且已经成为医疗健康信息抽取和知识发现中重要的研究方向。对医疗文本实体识别后，如何将用户非标准化表述映射到标准的医学术语，更成为医疗健康信息处理和知识挖掘的关键环节。
[0004]现有的实体标准化方法大多基于实体提及与标准术语的向量化编码，采用无监督或有监督算法计算相似度得分，排序选出最相似的标准术语。在实体标准化过程中，标准术语特征提取是一个关键步骤，在实际使用中，由于标准术语集合庞大，同时医疗术语表述不够规范，而且存在大量口语化表述，人力标注术语特征成本太高，如何高效、高质提取特征，对最终的归一效果形成了很大挑战。

技术实现思路

[0005]为了有效提高实体标准化的效果，同时降低标注语料的数据量，本公开提出了一种用于医疗文本的基于决策树的模型训练方法，通过海量数据分析，计算特征的信息度量值，提取医学概念的特征，从而实现高效高质提取特征。
[0006]根据本公开的一方面，提供了一种用于医疗文本的基于决策树的模型训练方法，该方法包括：数据预处理步骤，对作为训练数据...

【技术保护点】

【技术特征摘要】
1.一种用于医疗文本的基于决策树的模型训练方法，其中，所述方法包括：数据预处理步骤，对作为训练数据的多个医疗样本进行标注以获得包括多个医学概念的医疗概念集合，针对所述多个医学概念中的第一医学概念，对所述多个医疗样本进行数据预处理以获得多个特征；样本划分步骤，计算所述多个特征中的各个特征在所述决策树的根节点处的信息度量值，选择所述多个特征中具备最大信息度量值的第一特征放置在所述根节点处，并且基于所述第一特征是否存在于所述多个医疗样本中将所述多个医疗样本划分为两个叶节点；递归步骤，在每个叶节点处重复所述样本划分步骤，直到满足无需划分或不能划分的条件；路径生成步骤，依次记录满足预定标准的、在所述递归步骤中到达各个叶节点的特征集合为关键路径；以及路径更新步骤，基于所述数据库中存储的一个或多个医学知识，对所述关键路径进行更新以获得更新后的关键路径，所述一个或多个医学知识的每个包括与所述第一医学概念相关联的多个特征；其中，在所述路径更新步骤中，通过判断所述关键路径的特征集合是否与至少一个医学知识中的多个特征匹配，来确定是否更新所述关键路径。2.根据权利要求1所述的方法，其中，当所述关键路径的特征集合包括至少一个医学知识中的全部特征时，确定所述关键路径与医学知识匹配，无需更新所述关键路径，并且使用所述关键路径作为所述更新后的关键路径。3.根据权利要求1所述的方法，其中，当所述关键路径中缺少所述一个或多个医学知识中的任意一个医学知识中的至少一个特征时，确定所述关键路径与医学知识不匹配，并对所述关键路径中的特征进行处理，以更新所述关键路径。4.根据权利要求3所述的方法，其中，对所述关键路径中的特征进行处理包括：计算缺少的特征的信息度量值；将满足所述预定标准的所述缺少的特征增加到所述关键路径中，记录更新的所述关键路径作为所述更新后的关键路径，其中，增加的特征用作叶节点，将所述关键路径中的医疗样本划分为两个叶节点，以及随机丢弃划分到所述关键属性路径的医疗样本的一部分，并且将除去所述医疗样本的一部分的所述医疗样本的剩余部分分类为所述第一医学概念。5.根据权利要求4所述的方法，其中，所丢弃的所述医疗样本的一部分为所述医疗样本的10％。6.根据权利要求1所述的方法，其中，在所述数据预处理步骤中：使用切词处理对所述多个医疗样本进行切词以获得所述多个特征；统计所述多个特征中的每个特征在所述多个医疗样本中的数量以及包括每个特征的医疗样本被分类为相应的医学概念的数量；计算每个特征的条件概率其中v取值为0或1，v值为1时D
V
表示所述多个医疗样本中v类特征的数量，v值为0时D
V
表示所述多个医疗样本中没有所述v类特征的数量；k取
值为0或1，k值为1时表示所述v类特征的医疗样本中k类医学概念的数量，k值为0时表示所述v类特征的医疗样本中不是所述k类医学概念的数量。7.根据权利要求6所述的方法，其中，...

【专利技术属性】
技术研发人员：刘京华，徐辉强，
申请(专利权)人：北京壹永科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人