一种医学实体对码方法、系统、计算机设备、存储介质技术方案

技术编号:37165170 阅读:17 留言:0更新日期:2023-04-20 22:38
本发明专利技术提供一种医学实体对码方法,还提供了相应的系统、计算机设备、计算机可读存储介质,所述医学实体对码方法包括步骤:A、表征编码,是通过计算将输入文本编码为语义空间中的一个文本表征向量,建立深度学习预训练模型,通过表征编码器来实现;B0、无监督预训练;B1、任务精调,进行对比学习训练,由对比学习训练器来实现。本发明专利技术解决了对码匹配精确性的问题。本发明专利技术能够将不同的医疗机构中的医学实体表述进行对齐和标准化。表述进行对齐和标准化。表述进行对齐和标准化。

【技术实现步骤摘要】
一种医学实体对码方法、系统、计算机设备、存储介质


[0001]本专利技术属于生物医学应用
,特别涉及一种医学实体对码方法及相应的系统、计算机设备、计算机可读存储介质。

技术介绍

[0002]随着全社会健康意识的不断提高与医疗机构服务水平的不断提升,越来越多的业务场景需要对医学文本进行文本处理和语义分析,以便更好地评估用户的健康状态,更快地进行医疗业务结算,更准确地进行健康风险的识别。医学文本处理在医学知识图谱构建、临床病历分析、医学文献文本挖掘、医疗保险理赔风控等多个领域已经有了实际的应用,随着人工智能与深度学习技术的发展,医学文本处理的准确性在各个领域也取得了长足的进步。
[0003]但是,在医学文本中,不同医疗机构中对同一实体的表述常常有者很大的差异,例如有些医疗机构将“氯化钠注射液”称为“生理盐水”,又有些医疗机构将“白蛋白/球蛋白比例”简写为“白球比”,甚至更进一步简写为“A/G”,同一家医疗机构内部甚至也会存在多种混淆使用的表述。如果试图直接对这些实体名称的原始文本进行文本分析,往往无法进行更进一步的处理、统计和分析。这时,我们需要利用技术手段将不同医疗机构中的实体名称表述进行归一化,对齐到预定义好的标准医学实体库上,从而消除实体之间的表述差异,这也就是对码方法或系统的实际需求。
[0004]当前业界对码方法的技术难点主要在于:1)标注数据的收集十分困难,人工标注需要大量的人力成本和时间成本,且区别于通用文本任务的标注,对码方法需要文本标注人员具有医学背景和业务知识培训,2)对码方法的准确度很难提升,医学文本的高度复杂性和强领域相关性使得对码方法的模型性能提升的难度大大提高。

技术实现思路

[0005]针对上述问题,本专利技术提供一种医学实体对码方法。
[0006]本专利技术提供的医学实体对码方法,包括步骤:
[0007]A、表征编码,是通过计算将输入文本编码为语义空间中的一个文本表征向量,建立深度学习预训练模型,通过表征编码器来实现;
[0008]B0、无监督预训练;
[0009]B1、任务精调,进行对比学习训练,由对比学习训练器来实现。
[0010]进一步,
[0011]所述步骤A中,包括步骤:
[0012]A1、输入表征,由输入表征层来实现,是将所述输入文本由离散的文本字符串转换为高维实数域中的连续的向量;
[0013]A2、编码计算。
[0014]进一步,
[0015]在所述步骤A1中,输入实体名称S={char1,char2,

,char
n
},所述实体名称为由n个字符组成的字符串,n为正整数,通过所述输入表征进行转换,使得所述实体名称中每个字符都被转换成了一个k维的输入向量,k为正整数;
[0016]将所述输入向量组成的序列进行堆叠组成一个表示所述实体名称的输入信息的输入矩阵I
s
=[emb1,emb2,

,emb
n
],I
s
是实数域上的一个n行k列的矩阵;
[0017]每个所述输入向量均包含了所述每个字符的语义特征,以及所述每个字符在整个文本段中的位置特征。
[0018]进一步,
[0019]所述步骤A2由编码计算层来实现,是通过多层深度神经网络的计算将所述输入矩阵I
s
转换为一个实体名称的文本表征向量。
[0020]进一步,
[0021]在所述步骤A2中,对于所述输入矩阵I
s
,经过编码计算后,输出一个m维的文本表征向量E
s
,m为正整数,E
s
是实数域上一个m维的向量。
[0022]进一步,
[0023]在所属步骤B0中,
[0024]所述无监督预训练包括掩盖文本预测和后续句子预测,
[0025]所述掩盖文本预测,包括:将一个完整的文本序列中的词进行掩盖后,训练对码模型根据所述文本序列中的上下文对被掩盖的所述词进行预测;
[0026]所述后续句子预测,包括:首先选定一个文本集合collection
st
={st0,st1,st2,

,st
m1
},所述文本集合collection
st
中包含m1个句子,从所述文本集合collection
st
中随机抽出一个句子对(st
p
,st
q
),0≤p,q≤m1,利用分类模型判断所述句子st
q
是否为句子st
p
的后续相邻句子,m1,p,q为正整数。
[0027]进一步,
[0028]在所述步骤B1中,
[0029]对比学习的每个数据样本为一个三元组τ,τ=(x,x
+
,x

),
[0030]其中,x为基准文本,x
+
为基准文本的正例,x

为基准文本的负例。
[0031]进一步,
[0032]所述正例直接从所述基准文本进行获取,即x
+
=f
ω
(x),f
ω
(
·
)为正例构建函数,通过下面策略进行正例构建:
[0033]Dropout策略,对所述基准文本中的字符进行随机丢弃,丢弃字符占基准文本的比例由超参数设置,x
+
=Dropout(x),Dropout是深度学习中用于增加数据噪声的工具;
[0034]或
[0035]术语替换策略,即利用医学术语同义词进行替换;
[0036]所述负例的构建采用下面策略进行构建:
[0037]随机采样及编辑距离筛选策略,首先从语料库中随机采样其他的实体文本即第二实体文本,再根据所述第二实体文本与所述基准文本的编辑距离进行分组,每个组内的所述第二实体文本与基准文本具有相同的编辑距离,再针对每个所述组进行组内随机采样,每个所述组内的采样权重通过一个权重函数决定:
[0038][0039]其中,P
sample
为所述组内各文本的采样概率,d
edit
为所述基准文本与组内文本的编辑距离值,l
t
为所述基准文本的长度,l
n
为所述组内待采样文本的长度,|l
t

l
n
|为所述基准文本与待采样文本的长度差异绝对值,decay为采样概率的调节衰减因子。
[0040]进一步,
[0041]所述负例的构建采用业务集合采样策略,作为所述随机采样及编辑距离筛选策略的补充,其中,通过从单个业务数据集合中随机采样实体对,构成最终的负例数据集来实现所述负例的采样。
[0042]进一步,
[0043]所述正例与负例构建完成后,使用对比学习损本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学实体对码方法,其特征在于,包括步骤:A、表征编码,是通过计算将输入文本编码为语义空间中的一个文本表征向量,建立深度学习预训练模型,通过表征编码器来实现;B0、无监督预训练;B1、任务精调,进行对比学习训练,由对比学习训练器来实现。2.根据权利要求1所述的医学实体对码方法,其特征在于,所述步骤A中,包括步骤:A1、输入表征,由输入表征层来实现,是将所述输入文本由离散的文本字符串转换为高维实数域中的连续的向量;A2、编码计算。3.根据权利要求2所述的医学实体对码方法,其特征在于,在所述步骤A1中,输入实体名称S={char1,char2,

,char
n
},所述实体名称为由n个字符组成的字符串,n为正整数,通过所述输入表征进行转换,使得所述实体名称中每个字符都被转换成了一个k维的输入向量,k为正整数;将所述输入向量组成的序列进行堆叠组成一个表示所述实体名称的输入信息的输入矩阵I
s
=[emb1,emb2,

,emb
n
],I
s
是实数域上的一个n行k列的矩阵;每个所述输入向量均包含了所述每个字符的语义特征,以及所述每个字符在整个文本段中的位置特征。4.根据权利要求3所述的医学实体对码方法,其特征在于,所述步骤A2由编码计算层来实现,是通过多层深度神经网络的计算将所述输入矩阵I
s
转换为一个实体名称的文本表征向量。5.根据权利要求4所述的医学实体对码方法,其特征在于,在所述步骤A2中,对于所述输入矩阵I
s
,经过编码计算后,输出一个m维的文本表征向量E
s
,m为正整数,E
s
是实数域上一个m维的向量。6.根据权利要求5所述的医学实体对码方法,其特征在于,在所属步骤B0中,所述无监督预训练包括掩盖文本预测和后续句子预测,所述掩盖文本预测,包括:将一个完整的文本序列中的词进行掩盖后,训练对码模型根据所述文本序列中的上下文对被掩盖的所述词进行预测;所述后续句子预测,包括:首先选定一个文本集合collection
st
={st0,st1,st2,

,st
m1
},所述文本集合collection
st
中包含m1个句子,从所述文本集合collection
st
中随机抽出一个句子对(st
q
,st
q
),0≤p,q≤m1,利用分类模型判断所述句子st
q
是否为句子st
p
的后续相邻句子,m1,p,q为正整数。7.根据权利要求1

6任一项所述的医学实体对码方法,其特征在于,在所述步骤B1中,对比学习的每个数据样...

【专利技术属性】
技术研发人员:刘戈杰郭志扬
申请(专利权)人:上海栈略数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1