一种基于深度学习的医学术语标准化方法技术

技术编号:39289935 阅读:11 留言:0更新日期:2023-11-07 10:59
本发明专利技术公开了一种医学术语标准化方法,所述方法,包括:步骤1:获取原始数据集,对数据进行预处理,构造语义匹配召回模型的训练样本数据;步骤2:基于改进的有监督对比学习和RoBERTa双塔模型构建语义匹配召回模型CL

【技术实现步骤摘要】
一种基于深度学习的医学术语标准化方法


[0001]本专利技术涉及医疗文本数据处理
,具体涉及一种基于深度学习的医学术语标准化方法。

技术介绍

[0002]在医学诊断中,不同的医生对同一种疾病的医学术语可能有不同表述形式,这种医学术语表述形式多样的情况会导致统计分析和知识检索的过程中会存在较大的误差。因此,医学术语标准化在医疗信息化的发展中有着重要的研究意义。医学术语标准化任务是将临床诊断中对疾病名称、手术名称、检查方式等医学术语的多种表述形式,在标准化术语库中找到一个标准术语与之对应,例如将临床诊断中所描述“右股骨病灶活检术”对应到标准化术语库中的“股骨活组织检查”。
[0003]医学术语标准化的核心任务是原术语和标准术语之间的相似度匹配,现有的医学术语标准化任务多采用先召回后排序的方法。在召回阶段传统的相似度匹配如:BM25、编辑距离、tf

idf等基于统计学的方法,只依赖于两个实体之间的字面差异,未涉及到实体之间的深层语义表征。临床诊断中存在大量语义不同但字面相似度非常高的实体,如“脊柱生长阀置入术”和“脊柱生长阀修复术”和大量字面相似度低却表示相同语义的实体,如“脊柱生长阀置入术”和“脊柱后路生长棒植入术”,对于这种情况采用基于频率统计的算法召回,会导致真正的标准实体在召回阶段未被召回为候选实体,直接降低了最终结果的召回率。通过Word2Vec词向量方法进行召回的方式对背景语料的依赖性较强,对未登录词的表示效果较差,同时由于模型结构简单,Word2Vec词向量对实体语义表征不够丰富。在排序阶段以往的方案多使用RoBERTa、BERT等预训练语言模型将待匹配实体和候选实体集分别进行文本对语义匹配。这种传统fine tuning的方案下游任务与预训练任务不能够保持一致,导致模型预训练阶段学到的丰富的语言知识不能充分地应用到下游任务中。

技术实现思路

[0004]鉴于上述相关技术的不足,提供一种医学术语标准化的方法,提高医学术语标准化的精度。
[0005]目前,医学术语标准化任务研究逐渐转为先召回再排序的两阶段方法,两个阶段的误差都将影响最终的检测效果。为了提高最终结果的准确率,本文基于深度学习提出了语义召回加精准匹配的两阶段方案,对两个阶段分别进行改进:在召回阶段借鉴了对比学习思路,使RoBERTa模型能更好的学习语义的相关性,提升了字向量对医学术语的表征能力,从而提升召回阶段的精度。在排序阶段提出T5预训练语言模型结合prompt tuning方案,减少上游任务和下游任务不一致造成的知识遗失,同时将对抗训练应用到T5模型prompt tuning过程中,进一步提升模型的性能。
[0006]为了实现上述目的,本专利技术提供的技术方案如下:
[0007]步骤1:获取原始数据集,对数据进行预处理,分别构建语义召回模型和精准匹配
模型训练数据;
[0008]步骤2:基于改进的有监督对比学习和RoBERTa双塔模型构建语义召回模型CL

RoBERTa,训练语义召回模型;
[0009]步骤3:构建语义精准匹配模型T5,加入对抗训练机制对语义精准匹配模型进行训练;
[0010]步骤4:给定术语原词和医学标准术语库,通过语义召回模型生成原词和医学标准术语库所有标准词的语义表征向量,根据向量之间的余弦相似度进行召回并得到标准词候选集,使用精准匹配模型对原词和标准词候选集分别进行精准匹配得到最终标准词。
[0011]本申请方法具有如下有益效果:
[0012]本专利技术公开的一种基于深度学习的医学术语标准化方法,将RoBERTa和T5模型的相结合,能够适应复杂的医学术语对齐场景,提升医学术语标准化的精度。
[0013]本专利技术设计使用双塔结构和有监督的对比学习思想改进RoBERTa模型,得到改进后的语义表征模型为CL

RoBERTa,用于生成医学术语语义向量,该模型能够有效缩小同类别样本的向量空间距离,拉大不同类别样本的向量空间距离,极大提升了RoBERTa模型的语义表征能力。提出T5预训练语言模型结合prompt tuning方案,减少上游任务和下游任务不一致造成的知识遗失,同时将对抗训练应用到T5模型prompt tuning过程中,进一步提升模型的性能。
附图说明
[0014]下面对本专利技术中所需要使用的附图进行介绍。
[0015]图1是所提出的CL

RoBERTa模型结构;
[0016]图2为医学术语标准化整体流程图;
具体实施方式
[0017]为了对本专利技术的技术方案更加清晰的说明,下面将基于附图对本专利技术进行详细地描述。
[0018]医学术语标准化的核心任务是原术语和标准术语之间的相似度匹配,现有的医学术语标准化任务多采用先召回后排序的方法。在召回阶段传统的相似度匹配如:BM25、编辑距离、tf

idf等基于统计学的方法,只依赖于两个实体之间的字面差异,未涉及到实体之间的深层语义表征。临床诊断中存在大量语义不同但字面相似度非常高的实体,如“脊柱生长阀置入术”和“脊柱生长阀修复术”和大量字面相似度低却表示相同语义的实体,如“脊柱生长阀置入术”和“脊柱后路生长棒植入术”,对于这种情况采用基于频率统计的算法召回,会导致真正的标准实体在召回阶段未被召回为候选实体,直接降低了最终结果的召回率。通过Word2Vec词向量方法进行召回的方式对背景语料的依赖性较强,对未登录词的表示效果较差,同时由于模型结构简单,Word2Vec词向量对实体语义表征不够丰富。在排序阶段以往的方案多使用RoBERTa、BERT等预训练语言模型将待匹配实体和候选实体集分别进行文本对语义匹配。这种传统fine tuning的方案下游任务与预训练任务不能够保持一致,导致模型预训练阶段学到的丰富的语言知识不能充分地应用到下游任务中。
[0019]本专利技术提出了基于深度学习的语义召回加精准匹配两阶段医学术语标准化方法,
在语义召回阶段使用语义表征模型CL

RoBERTa,分别得到原词和医学术语的语义表征向量,通过余弦相似度召回前10个最相似医学术语得到标准词候选术语集。在精准排序阶段利用T5结合prompt tuning构建语义构建的精准匹配模型,将原词和候选术语集分别进行精准排序,得到最终的标准词。语义召回阶段使用双塔结构和有监督的对比学习思想改进RoBERTa模型,得到改进后的语义表征模型为CL

RoBERTa,用于生成医学术语语义向量,该模型能够有效缩小同类别样本的向量空间距离,拉大不同类别样本的向量空间距离。在精准排序阶段针对传统fine tuning的方案下游任务与预训练任务不能够保持一致,导致模型预训练阶段学到的丰富的语言知识不能充分地应用到下游任务,使用T5结合prompt tuning构建语义精准匹配模型,使得模型预训练阶段学到知识能够充分地应用到下游任务中。
[0020]实施例1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的医学术语标准化方法,包括下述步骤:步骤1:获取原始数据集,对数据进行预处理,分别构造语义匹配召回模型和精准匹配模型训练数据;步骤2:基于改进的有监督对比学习和RoBERTa双塔模型构建语义匹配召回模型CL

RoBERTa,训练语义匹配召回模型;步骤3:构建语义精准匹配模型T5,加入对抗训练机制对语义精准匹配模型进行训练;步骤4:给定术语原词和医学标准术语库,通过语义匹配召回模型生成原词和医学标准术语库所有标准词的语义表征向量,根据向量之间的余弦相似度进行召回并得到标准词候选集,使用精准匹配模型对原词和标准词候选集分别进行精准排序得到最终标准词。2.根据权利要求1所述的一种基于深度学习的医学术语标准化方法,所述步骤1具体包括:步骤11:获取样本数据,对数据进行预处理,按照相应的策略<原始词,标准词,1>和<原始词,非标准词,0>构造正负样本,作为步骤2语义匹配召回模型的训练数据;步骤12:通过“xxx和xxx+prompt内容”的形式构造语义精准匹配模型训练数据,例如<“右中下肺叶切除术”和“肺叶切除术”这两个术语含义相同吗?,是>。3.根据权利要求1所述的所述构建语义召回模型CL

RoBERTa方法,其特征在于,该模型能够有效缩小同类别样本的向量空间距离,拉大不同类别样本的向量空间距离,有效提升RoBERTa的语义表征能力,所述步骤2具体包括:步骤21:构建基于RoBERTa双塔模型,左右两个塔参数共享;步骤22:将语义召回模型的训练数据依次作为输入,分别送入CL

RoBERTa左右塔的Embedding层中;步骤23:将Embedding层中输出结果送入transformer block层中,每一层的transformer block计算过程如式(1)

式(2):H=LN(A
i
‑1+MHA(A
i
‑1))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)A
i
=LN(H+FFN(H))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中A0=E,Ai表示第i层的transformer block输出,MHA(multihead

attention)为多头注意力机制,LN(layer normalization)表示层归一化,FFN为全连接神经网络;步骤24:通过式(1)

式(2)计算分别左塔和右塔得到最后一层transformer block的输出结果,对左、右塔输出结果在最后一个维度上纵向相加求和取平均得到ux、uy;步骤25:使用改进的有监督对比学习设计新型损失函数训练双塔模型。损失函数的计算公式为式(3...

【专利技术属性】
技术研发人员:崔灿灿周景
申请(专利权)人:华北电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1