一种增强医疗语句语义向量表示的模型构造方法及系统技术方案

技术编号:36165813 阅读:8 留言:0更新日期:2022-12-31 20:15
本发明专利技术涉及自然语言处理技术领域,且公开了一种增强医疗语句语义向量表示的模型构造方法,包括收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;基于所述医疗数据进行预处理结果,保留Bert中的MLM任务,构建损失函数做全词掩码训练;保存训练后的Bert模型,切分所述医疗数据中的每段文本形成句子集合;基于句子集合,对每个句子进行对比学习训练;构建一个新的损失函数,判断当新的损失函数连续3次得出的数据不下降的情况下,得出最终Bert模型作为最终的增强语义向量表示的模型。本专利结合继续预训练和对比学习来有效增强医疗语句语义表示的构造方法,使医疗语句的表达更精确。使医疗语句的表达更精确。使医疗语句的表达更精确。

【技术实现步骤摘要】
一种增强医疗语句语义向量表示的模型构造方法及系统


[0001]本专利技术涉及自然语言处理
,具体为一种增强医疗语句语义向量表示的模型构造方法及系统。

技术介绍

[0002]在传统方式中,句向量是通过词向量求和而成,这种直接加和的方式并没有利用到词与词之间的交互信息,在业界普遍使用的Bert模型中,直接利用Bert模型产生的句向量做余弦相似度计算,会发现两个差别很大的句子也有较高的相似度,这会导致下游的任务,如根据相似度召回的效果差;另一种通用的方式是使用对比学习,其中一种是无监督的方式,从大量语料中训练获取句向量,SimCSE模型和ESimCSE模型就是通过对比学习,在无监督数据的情形下进行句嵌入,并且生成了质量较好的句向量,主要是利用自身Dropout后的数据作为其正样本,利用一个Batch内其他数据作为负样本,训练目标是降低对比学习的损失,增加互为正样本数据之间的相似度,减小与负样本数据间的相似度;后续的以Bert为基础的各类模型,通过堆叠Transformer encoder来捕捉句子中深度双向的词与词之间的信息,并以输出层中的[CLS] token的向量来表示整个句子的向量。
[0003]在医疗场景下,由于医疗术语的专业性和复杂性,基于大规模通用语料训练的Bert模型生成的空间向量表示并不能很好的表示医疗术语的实际意义。
[0004]为此,本专利提出了结合继续预训练和对比学习来进行一种增强医疗语句语义向量表示的模型构造方法。

技术实现思路

[0005]本专利技术主要是提供一种增强医疗语句语义向量表示的模型构造方法及系统,主要解决在医疗场景下,由于医疗术语的专业性和复杂性,基于大规模通用语料训练的Bert模型生成的空间向量表示并不能很好的表示医疗术语的问题。
[0006]为了解决上述技术问题,本专利技术采用如下技术方案:一种增强医疗语句语义向量表示的模型构造方法,收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;基于收集医学领域的医疗数据,对初始Bert模型仅保留MLM任务,对所述初始Bert模型做全词掩码训练,保存训练后的Bert模型;切分所述医疗数据中的每段文本形成句子集合;基于句子集合,对每个句子进行对比学习训练;基于训练后的Bert模型,获得句子的空间向量表征,基于对比学习训练,构建新的损失函数,得出最终Bert模型作为最终的增强语义向量表示的模型。
[0007]进一步的,构建损失函数,判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。
[0008]进一步的,将同一个句子送入Bert模型两次,得到的两个向量为正样本;
采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大于4的句子生成的向量作为负样本。
[0009]进一步的,所述扩充医学词典的构件方式为,对所述医疗数据进行预处理完的文本数据通过分词工具分词;基于分词工具的分词结果,若有词语不在这个词典里面,我们就记录该词并统计出现的次数,作为候选新词;最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。
[0010]进一步的,所述新的损失函数为:其中: 代表同一句话输入训练后的Bert模型后生成的两个句向量;为调节系数; 代表两个向量之间的相似度,用向量的余弦相似度度量;表示两个向量之间的相似度,N表示整个Batch中的句子总数,P表示损失函数中的一个代数;代表的是该Batch中的某个负样本输入到训练后的Bert模型后生成的句向量; 表示句子i和句子j的莱文斯坦距离。
[0011]一种增强医疗语句语义向量表示的模型构造系统,数据预处理模块,用于收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;继续预训练模块,用于基于收集医学领域的医疗数据中, 对初始Bert模型仅保留MLM任务,对所述初始Bert模型做全词掩码训练,保存训练后的Bert模型;切分数据集模块,用于切分所述医疗数据中的每段文本形成句子集合;对比学习训练模块,用于基于句子集合,对每个句子进行对比学习训练;最终语义向量表示模块,用于基于训练后的Bert模型,获得句子的空间向量表征,基于对比学习训练,构建新的损失函数,得出最终Bert模型作为最终的增强语义向量表示的模型。
[0012]进一步的,训练后的Bert模型生成单元,用于构建损失函数,判断当所述损失函数
连续3次得出的数据不下降,则保存训练后的Bert模型。
[0013]进一步的,正样本生成单元,用于将同一句话送入Bert模型两次,得到的两个向量为正样本;莱文斯坦计算单元,用于采用莱文斯坦距离的计算方式进行筛选,当莱文斯坦距离大于4的句子生成的向量作为负样本。
[0014]进一步的,扩充医学词典单元,用于对所述医疗数据进行预处理完的文本数据通过分词工具分词;基于分词工具的分词结果,若有词语不在这个词典里面,我们就记录该词并统计出现的次数,作为候选新词;最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。
[0015]进一步的,所述新的损失函数为:所述新的损失函数为:其中: 代表同一句话输入训练后的Bert模型后生成的两个句向量;为调节系数;代表两个向量之间的相似度,用向量的余弦相似度度量;表示两个向量之间的相似度,N表示整个Batch中的句子总数,P表示损失函数中的一个代数;代表的是该Batch中的某个负样本输入到训练后的Bert模型后生成的句向量;表示句子i和句子j的莱文斯坦距离。
[0016]一种计算机设备,存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现上述方法。
[0017]一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现上述方法。
[0018]有益效果:1、在Bert的训练方式中,只保留MLM任务,但是使用的为全词掩码方式,能更准确的表达医疗术语的实际意义;2、本专利结合继续预训练和对比学习来使医疗术语语义表示增强;
3、本案结合按莱文斯坦距离的方式,节约了算力,正样本对同义句相似度尽可能大,而负样本对的相似度尽可能小,在排除了同一Batch中可能存在的其他同义句干扰后,让loss不断减小以此来训练提升模型对句向量的表示。
附图说明
[0019]图1为增强医疗语句语义表示的构造方法流程示意图;图2为增强医疗语句语义表示的构造系统分布示意图。
具体实施方式
[0020]以下将结合实施例对本专利技术涉及的一种增强医疗语句语义向量表示的模型构造方法及系统技术方案进一步详细说明。
[0021]一种增强医疗语句语义向量表示的模型构造方法为:S001:收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;具体的,所述医学领域的医疗数据来源于合作医院的脱敏电子病历、开源的医疗百科数据/问答数据,在数据处理时,采用了英文大小写转换、特殊符号去除、停用词去除、规则替换等操作进行预处理。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种增强医疗语句语义向量表示的模型构造方法,其特征在于,包括:收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构扩充医学词典;基于收集医学领域的医疗数据,对初始Bert模型仅保留MLM任务,对所述初始Bert模型做全词掩码训练,保存训练后的Bert模型;切分所述医疗数据中的每段文本形成句子集合;基于句子集合,对每个句子进行对比学习训练;基于训练后的Bert模型,获得句子的空间向量表征,基于对比学习训练,构建新的损失函数,得出最终Bert模型作为最终的增强语义向量表示的模型。2.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法,其特征在于,所述保存训练后的Bert模型,包括:构建损失函数,判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。3.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法,其特征在于,所述基于句子集合,对每个句子进行对比学习训练,包括:将同一个句子送入Bert模型两次,得到的两个向量为正样本;采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大于4的句子生成的向量作为负样本。4.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法,其特征在于,所述建构扩充医学词典,包括:对所述医疗数据进行预处理完的文本数据通过分词工具分词;基于分词工具的分词结果,若有词语不在这个词典里面,记录不在这个词典里面的词语并统计出现的次数,作为候选新词;最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。5.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法,其特征在于,所述新的损失函数为:其中:其中:表示同一句话输入训练后的Bert模型后生成的两个句向量;表示为调节系数;表示两个向量之间的相似度,用向量的余弦相似度度量;
表示两个向量之间的相似度,N表示整个Batch中的句子总数,P表示损失函数中的一个代数;表示的是batch中的某个负样本输入到训练后的Bert模型后生成的句向量;表示句子i和句子j的莱文斯坦距离。6.一种增强医疗语句语义向量表示的模型构造系统,其特征在于,包括:数据预处理模块,用于收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;继续预训练模块,用于基于收集医学领域的医疗数据中,对初始Bert模型仅保留MLM任务,对所述初始Bert模型做...

【专利技术属性】
技术研发人员:白焜太杨雅婷宋佳祥刘硕许娟史文钊
申请(专利权)人:神州医疗科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1