一种增强医疗语句语义向量表示的模型构造方法及系统技术方案

技术编号：36165813 阅读：8 留言：0更新日期：2022-12-31 20:15

本发明专利技术涉及自然语言处理技术领域，且公开了一种增强医疗语句语义向量表示的模型构造方法，包括收集医学领域的医疗数据，并对所述医疗数据进行预处理，建构一份扩充医学词典；基于所述医疗数据进行预处理结果，保留Bert中的MLM任务，构建损失函数做全词掩码训练；保存训练后的Bert模型，切分所述医疗数据中的每段文本形成句子集合；基于句子集合，对每个句子进行对比学习训练；构建一个新的损失函数，判断当新的损失函数连续3次得出的数据不下降的情况下,得出最终Bert模型作为最终的增强语义向量表示的模型。本专利结合继续预训练和对比学习来有效增强医疗语句语义表示的构造方法，使医疗语句的表达更精确。使医疗语句的表达更精确。使医疗语句的表达更精确。

全部详细技术资料下载

【技术实现步骤摘要】
一种增强医疗语句语义向量表示的模型构造方法及系统

[0001]本专利技术涉及自然语言处理
，具体为一种增强医疗语句语义向量表示的模型构造方法及系统。

技术介绍

[0002]在传统方式中，句向量是通过词向量求和而成,这种直接加和的方式并没有利用到词与词之间的交互信息，在业界普遍使用的Bert模型中，直接利用Bert模型产生的句向量做余弦相似度计算，会发现两个差别很大的句子也有较高的相似度，这会导致下游的任务，如根据相似度召回的效果差；另一种通用的方式是使用对比学习，其中一种是无监督的方式，从大量语料中训练获取句向量，SimCSE模型和ESimCSE模型就是通过对比学习，在无监督数据的情形下进行句嵌入，并且生成了质量较好的句向量，主要是利用自身Dropout后的数据作为其正样本，利用一个Batch内其他数据作为负样本，训练目标是降低对比学习的损失，增加互为正样本数据之间的相似度，减小与负样本数据间的相似度；后续的以Bert为基础的各类模型,通过堆叠Transformer encoder来捕捉句子中深度双向的词与词之间的信息，并以输出层中的[CLS] token的向量来表示整个句子的向量。
[0003]在医疗场景下,由于医疗术语的专业性和复杂性,基于大规模通用语料训练的Bert模型生成的空间向量表示并不能很好的表示医疗术语的实际意义。
[0004]为此,本专利提出了结合继续预训练和对比学习来进行一种增强医疗语句语义向量表示的模型构造方法。

技术实现思路

[0005]本专利技术主要是提供...

【技术保护点】

【技术特征摘要】
1.一种增强医疗语句语义向量表示的模型构造方法，其特征在于，包括：收集医学领域的医疗数据，并对所述医疗数据进行预处理，建构扩充医学词典；基于收集医学领域的医疗数据，对初始Bert模型仅保留MLM任务，对所述初始Bert模型做全词掩码训练，保存训练后的Bert模型；切分所述医疗数据中的每段文本形成句子集合；基于句子集合，对每个句子进行对比学习训练；基于训练后的Bert模型，获得句子的空间向量表征，基于对比学习训练，构建新的损失函数，得出最终Bert模型作为最终的增强语义向量表示的模型。2.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法，其特征在于，所述保存训练后的Bert模型，包括：构建损失函数，判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert模型。3.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法，其特征在于，所述基于句子集合，对每个句子进行对比学习训练，包括：将同一个句子送入Bert模型两次，得到的两个向量为正样本；采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大于4的句子生成的向量作为负样本。4.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法，其特征在于，所述建构扩充医学词典，包括：对所述医疗数据进行预处理完的文本数据通过分词工具分词；基于分词工具的分词结果，若有词语不在这个词典里面，记录不在这个词典里面的词语并统计出现的次数，作为候选新词；最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。5.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法，其特征在于，所述新的损失函数为：其中：其中：表示同一句话输入训练后的Bert模型后生成的两个句向量；表示为调节系数；表示两个向量之间的相似度，用向量的余弦相似度度量；
表示两个向量之间的相似度，N表示整个Batch中的句子总数，P表示损失函数中的一个代数；表示的是batch中的某个负样本输入到训练后的Bert模型后生成的句向量；表示句子i和句子j的莱文斯坦距离。6.一种增强医疗语句语义向量表示的模型构造系统，其特征在于，包括：数据预处理模块，用于收集医学领域的医疗数据，并对所述医疗数据进行预处理，建构一份扩充医学词典；继续预训练模块，用于基于收集医学领域的医疗数据中，对初始Bert模型仅保留MLM任务，对所述初始Bert模型做...

【专利技术属性】
技术研发人员：白焜太，杨雅婷，宋佳祥，刘硕，许娟，史文钊，
申请(专利权)人：神州医疗科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人