一种医学标准映射模型的建立方法、系统及使用方法技术方案

技术编号:34788579 阅读:35 留言:0更新日期:2022-09-03 19:51
本发明专利技术涉及智慧医疗技术领域,且公开了一种医学标准映射模型的建立方法、系统及使用方法,本发明专利技术能够将医学实体数据按照原始词、标准词、标准词编码的类型进行准确的分类,并对分类后的训练数据进行预处理,从而得到统一化的实体数据集;利用统一化的实体数据集作为Bert模型的输入能够减少训练误差,且实体数据集是按照锚文本、正文本和负文本组成的三元组样本的形式进行划分,并能够提高特征向量获取的准确性,加强各文本的特征向量的联系性;同时,通过损失函数的计算和预设条件的设置,能够及时的停止Bert模型的训练,从而获取较准确的医学标准映射模型。的医学标准映射模型。的医学标准映射模型。

【技术实现步骤摘要】
一种医学标准映射模型的建立方法、系统及使用方法


[0001]本专利技术涉及智慧医疗
,具体为一种医学标准映射模型的建立方法、系统及使用方法。

技术介绍

[0002]医学实体标准化,旨在将文本中提到的表示医学实体的原始词映射到知识库中的标准词。实际情况下,医学实体在书写记录中会有许多形态和语法的变化,并且经常会使用不同的词序或同义词,使得医学实体的标准化非常具有挑战性。例如:胃舒平和氢氧化铝,虽然它们的字面表现完全不同,但都映射到同一标准词(氢氧化铝);与此相对,扑感敏,扑尔敏,虽然它们的字面表现相近,但映射的标准词却完全不同(分别是酚氨咖敏、氯苯那敏)。
[0003]如何将这些术语原始词与知识库中的标准词联系起来,对于挖掘和分析生物医学领域的非结构化文本非常重要。
[0004]现有的方法可以分为两类:一、基于规则的方法,使用字符串匹配或字典查询,这在很大程度上依赖于手工制作的规则和领域知识,其中,存在的缺陷为:耗时耗力,无法处理灵活多变场景。
[0005]二、基于候选词先召回后排序的两步框架,将当前查询的医学实体原始词,与标准词库进

tf

idf相似度计算,返回一定数量预测标准词,并通过分类模型进行0

1(是/否)分类进行最终结果确定,其中,存在的缺陷为:这种方法在相似度计算方面只考虑了字面相似度,对于原始词和对应标准词字面覆盖率低(即字面表现差异较大)的原始词结果会差强人意。

技术实现思路

[0006]本专利技术主要是提供一种医学标准映射模型的建立方法、系统及使用方法。
[0007]为了解决上述技术问题,本专利技术采用如下技术方案:一种医学标准映射模型的建立方法,包括:采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集;将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量;构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练;若停止训练,则将停止时的Bert模型确定为医学标准映射模型。
[0008]进一步,所述采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集,包括:采集医学实体数据,将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类;
对分类后的所述医学实体数据进行数据形式构建,并将构建后获取的训练数据存入知识库;预处理所述知识库中的所述训练数据,并生成实体数据集。
[0009]进一步,所述将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量,包括:按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分;将所述三元组样本作为Bert模型的输入进行训练,获取输出的所述三元组样本中各文本对应的特征向量。
[0010]进一步,在所述按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分中,包括:选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本。
[0011]进一步,所述构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练,包括:基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离,基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离;构建损失函数,利用所述正向特征距离和反向特征距离进行损失计算;在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数,或者Bert模型的训练批次次数达到预先设置的阈值次数,则停止训练。
[0012]一种医学标准映射模型的建立系统,包括:实体数据集生成模块,用于采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集;特征向量生成模块,用于将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量;损失函数构建模块,用于构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练;模型确定模块,用于若停止训练,则将停止时的Bert模型确定为医学标准映射模型。
[0013]进一步,所述实体数据集生成模块,包括:分类子模块,用于采集医学实体数据,将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类;存储子模块,用于对分类后的所述医学实体数据进行数据形式构建,并将构建后获取的训练数据存入知识库;预处理子模块,用于预处理所述知识库中的所述训练数据,并生成实体数据集。
[0014]进一步,所述特征向量生成模块,包括:划分子模块,用于按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分;
特征向量生成子模块,用于将所述三元组样本作为Bert模型的输入进行训练,获取输出的所述三元组样本中各文本对应的特征向量。
[0015]进一步,在所述划分子模块中,包括:选择单元,用于选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本。
[0016]进一步,所述损失函数构建模块,包括:特征距离计算子模块,用于基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离,基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离;损失计算子模块,用于构建损失函数,利用所述正向特征距离和反向特征距离进行损失计算;训练停止子模块,用于在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数,或者Bert模型的训练批次次数达到预先设置的阈值次数,则停止训练。
[0017]一种医学标准映射模型的使用方法,利用所述医学标准映射模型进行待标准化原始词的标准化操作,包括:将所述实体数据集中所有原始词的特征向量组成初始特征集;将所述待标准化原始词输入所述医学标准映射模型,并输出待标准化原始词的特征向量;计算所述初始特征集内各原始词的特征向量与所述待标准化原始词的特征向量的相似度;获取与待标准化原始词的特征向量相似度最高的原始词;确定该原始词对应的标准词,并映射至所述待标准化原始词。
[0018]一种计算机程序,包括计算机程序指令,所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。
[0019]一种存储介质,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。
[0020]一种终端设备,包括处理器和存储器,所述存储器用于存放至少一项计算机程序指令,所述计算机程序指令被处理器执行时用于实现所述的一种医学标准映射模型的建立方法对应的步骤。
[0021]有益效果:本专利技术能够将医学实体数据按照原始词、标准词、标准词编码的类型进行准确的分类,并对分类后的训练数据进行预处理,从而得到统一化的实体数据集;利用统一化的实体数据集作为Bert本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学标准映射模型的建立方法,其特征在于,包括:采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集;将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量;构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练;若停止训练,则将停止时的Bert模型确定为医学标准映射模型。2.根据权利要求1所述的方法,其特征在于,所述采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集,包括:采集医学实体数据,将所述医学实体数据按照原始词、标准词、标准词编码的类型进行分类;对分类后的所述医学实体数据进行数据形式构建,并将构建后获取的训练数据存入知识库;预处理所述知识库中的所述训练数据,并生成实体数据集。3.根据权利要求2所述的方法,其特征在于,所述将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量,包括:按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分;将所述三元组样本作为Bert模型的输入进行训练,获取输出的所述三元组样本中各文本对应的特征向量。4.根据权利要求3所述的方法,其特征在于,在所述按照锚文本、正文本和负文本组成的三元组样本的形式对所述实体数据集中的所述训练数据进行划分中,包括:选择在相同训练批次中与锚文本映射到不同标准词且距离最近的文本作为负文本。5.根据权利要求3所述的方法,其特征在于,所述构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练,包括:基于所述锚文本的特征向量和正文本的特征向量计算正向特征距离,基于所述锚文本的特征向量和负文本的特征向量计算反向特征距离;构建损失函数,利用所述正向特征距离和反向特征距离进行损失计算;在损失计算的过程中若损失函数的结果值连续没有降低的训练批次次数达到了预先设置的早停止次数,或者Bert模型的训练批次次数达到预先设置的阈值次数,则停止训练。6.一种医学标准映射模型的建立系统,其特征在于,包括:实体数据集生成模块,用于采集医学实体数据,对所述医学实体数据进行分类并构建实体数据集;特征向量生成模块,用于将所述实体数据集作为Bert模型的输入,并获取通过所述Bert模型进行训练后输出的特征向量;损失函数构建模块,用于构建损失函数,基于所述损失函数对获取的所述特征向量进行损失计算,并根据计算结果或预设条件判断是否停止训练;模型确定模块,用于若停止训练,则将停止时的Bert模型确定为医学标准映射模型。7.根据权利要求6所述的系统,其特征在于,所述实体数据集生成模块,包括:
分类子模...

【专利技术属性】
技术研发人员:白焜太杨雅婷宋佳祥刘硕许娟史文钊
申请(专利权)人:神州医疗科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1