一种基于深度学习的中文临床术语标准化方法技术

技术编号:38140497 阅读:17 留言:0更新日期:2023-07-08 09:54
本发明专利技术公开了一种基于深度学习的中文临床术语标准化方法,涉及到临床术语领域,针对每一个诊断原词,进行所述数据的预处理;从标准词集合中产生该诊断原词,利用所述诊断原词达到所述候选集生成;使用所述模型排序对候选集中的每个词进行排序;通过模型预测出标准词个数K,并结合所述模型排序的结果,得到前K个词作为所述标准词集合。所述数据的预处理分为数据清洗和标准词集合生成,所述数据清洗包括清洗诊断原词的无关字符,所述标准词生成包括选取ICD

【技术实现步骤摘要】
一种基于深度学习的中文临床术语标准化方法


[0001]本专利技术涉及临床术语领域,特别涉及一种基于深度学习的中文临床术语标准化方法。

技术介绍

[0002]针对中文临床术语标准化问题,已有大量的研究和探索。目前主要分为三类方法,即基于人工手动结合规则的方法、基于机器学习的方法和基于深度学习的方法。
[0003]基于人工手动结合规则的方法最早应用于国外对临床术语的标准化。然而这种方式总体学习成本较高,并且效率低下。需要大量的专业人员,并且耗时易出错,现在应用较少。
[0004]基于机器学习的方法相对于基于人工手动结合规则的方法有一定进步。但是并没有深入挖掘文本中所包含的语义信息。
[0005]随着深度学习技术的发展和计算性能的大幅提升,神经网络被广泛应用于临床信息处理领域。深度学习在文本建模上具有强大的表征能力,不仅可以更好地表示词语和文本,还可以学习到词语的上下文关系和重要词语的信息,在自然语言处理领域展现出强大的优势。因此,深度学习成为目前研究临床术语标准化的主流方法。
[0006]本提案提出一种基于深度学习的中文临床术语标准化的方法。将临床术语标准化工作分为候选集生成,模型排序,个数预测三部分。同时针对候选集生成,提出一种基于无监督与有监督学习融合的候选集生成方法,将候选集生成问题抽象成文本相似度计算问题。

技术实现思路

[0007]本专利技术的目的在于提供一种基于深度学习的中文临床术语标准化方法,以解决上述
技术介绍
中提出的问题。
[0008]为实现上述目的,本专利技术提供如下技术方案:一种基于深度学习的中文临床术语标准化方法,包括数据的预处理、候选集生成、模型排序、个数预测,该方法包括以下步骤:S1、数据的预处理,数据的预处理分为数据清洗和标准词集合生成,专利技术数据清洗包括清洗诊断原词的无关字符,标准词生成包括选取ICD

10作为标准词集合,优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性,在有监督学习场景下,将训练集中标注的诊断原词和标准词数据,作为正样例(X,X+),将训练过程中同一个Batch内除自身之外的其它所有诊断原词及其标准词作为负样例(X,X

)进行数据增强,在无监督学习场景下,构建负样例的过程则与有监督学习场景相同,针对每一个诊断原词,进行所述数据的预处理;S2、候选集生成,候选集生成是通过给定一个诊断原词,从标准词集合中筛选出若干个标准词作为匹配候选的过程,在候选集生成过程中,将对比学习分别运用到有监督学习和无监督学习两种场景中,对比学习的核心是通过数据增强的方式构建正负样例,然后
将正负样例同时输入到模型中进行特征提取进而生成句嵌入,最后优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性,从标准词集合中产生该诊断原词,利用所述诊断原词达到所述候选集生成,通过迁移学习将有监督学习场景和无监督学习场景下通过对比学习生成的模型进行融合,形成最终的候选集生成模型,在推理过程中,输入一个诊断原词,通过模型生成嵌入结果,并与每一个标准词生成的嵌入结果进行相似度计算并排序,通过选取不同的召回范围(TopK值)生成最终的候选集合;S3、模型排序,使用所述模型排序对候选集中的每个词进行排序;S4、个数预测,通过模型预测出标准词个数K,并结合所述模型排序的结果,得到前K个词作为所述标准词集合。
[0009]优选的,所述数据的预处理分为数据清洗和标准词集合生成,所述数据清洗包括清洗诊断原词的无关字符,所述标准词生成包括选取ICD

10作为标准词集合。
[0010]优选的,所述模型排序是将所述诊断原词与候选标准词用[SEP]分隔符隔开作为BERT的输入,然后取BERT输出中[CLS]位置对应的向量作为下一个全连接层的输入,使用sigmoid函数进行激活,把诊断原词与候选标准词语义相似度计算问题抽象为二分类问题。
[0011]优选的,所述个数预测的目的是确认输出标准词的数量,在预测数量时,将原始训练集的诊断原词加入到数量预测的训练集中,将原始训练集中的标准词通过分隔符进行分割,得到标准词数量作为数量预测的类别标签。
[0012]优选的,将个数预测抽象成一个类别为{1,2,3,>3}的多分类问题,利用BERT微调参数进行数量预测K,结合步骤三排序模型的输出结果,返回前K个排名作为最后的结果。
[0013]本专利技术的技术效果和优点:1、针对候选集生成过程,本提案提出一种基于有监督学习与无监督学习融合的候选集生成方法,提高候选集生成的召回率。
[0014]2、针对中文以及临床领域的特点,提出一种基于深度学习的中文临床术语标准化的方法,可以有效的解决中文临床术语统一标准化的问题。
附图说明
[0015]图1为本专利技术基于深度学习的中文临床术语标准化方法示意图。
具体实施方式
[0016]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]本专利技术提供了如图1所示的一种基于深度学习的中文临床术语标准化方法,针对每一个诊断原词,进行所述数据的预处理;从标准词集合中产生该诊断原词,利用所述诊断原词达到所述候选集生成;使用所述模型排序对候选集中的每个词进行排序;通过模型预测出标准词个数K,并结合所述模型排序的结果,得到前K个词作为所述标准词集合。
[0018]实施例1候选集生成是通过给定一个诊断原词,从标准词集合中筛选出若干个标准词作为
匹配候选的过程,在候选集生成过程中,将对比学习分别运用到有监督学习和无监督学习两种场景中,对比学习的核心是通过数据增强的方式构建正负样例,然后将正负样例同时输入到模型中进行特征提取进而生成句嵌入,最后优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性。
[0019]数据的预处理分为数据清洗和标准词集合生成,专利技术数据清洗包括清洗诊断原词的无关字符,标准词生成包括选取ICD

10作为标准词集合。最后优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性。
[0020]在有监督学习场景下,将训练集中标注的数据(诊断原词,标准词)作为正样例(X,X+),将训练过程中同一个Batch内除自身之外的其它所有诊断原词及其标准词作为负样例(X,X

)进行数据增强。
[0021]实施例2
[0022]在无监督学习场景下,构建负样例的过程则与有监督学习场景相同。而在构建正样例过程中,由于缺乏标注数据,则采用“单词重复”来构建正样例。传统的做法是通过对原有句子进行随机插入或随机删除,以此来改变原有句子长度,形成的新的句子作为原有句子的正样例。但是在句子中插入随机选择的单词可能会引入额外的噪声,并扭曲句子的含义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的中文临床术语标准化方法,其特征在于:包括数据的预处理、候选集生成、模型排序、个数预测,该方法包括以下步骤:S1、数据的预处理,数据的预处理分为数据清洗和标准词集合生成,发明数据清洗包括清洗诊断原词的无关字符,标准词生成包括选取ICD

10作为标准词集合,优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性,在有监督学习场景下,将训练集中标注的诊断原词和标准词数据,作为正样例(X,X+),将训练过程中同一个Batch内除自身之外的其它所有诊断原词及其标准词作为负样例(X,X

)进行数据增强,在无监督学习场景下,构建负样例的过程则与有监督学习场景相同,针对每一个诊断原词,进行所述数据的预处理;S2、候选集生成,候选集生成是通过给定一个诊断原词,从标准词集合中筛选出若干个标准词作为匹配候选的过程,在候选集生成过程中,将对比学习分别运用到有监督学习和无监督学习两种场景中,对比学习的核心是通过数据增强的方式构建正负样例,然后将正负样例同时输入到模型中进行特征提取进而生成句嵌入,最后优化对比损失,增加正样例之间的相似性,减小负样例之间的相似性,从标准词集合中产生该诊断原词,利用所述诊断原词达到所述候选集生成,通过迁移学习将有监督学习场景和无监督学习场景下通过对比学习生成的模型进行融合,形成最终的候选集生成模型,在推理过程中,输入一个诊断原词,通过模型生成嵌入结果,并与每一个标准词生成的嵌入结果进行相似度计算并排...

【专利技术属性】
技术研发人员:曹天甲倪广健程龙龙田野
申请(专利权)人:中电云脑天津科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1