【技术实现步骤摘要】
一种医学实体对码方法、系统、计算机设备、存储介质
[0001]本专利技术属于生物医学应用
,特别涉及一种医学实体对码方法及相应的系统、计算机设备、计算机可读存储介质。
技术介绍
[0002]随着全社会健康意识的不断提高与医疗机构服务水平的不断提升,越来越多的业务场景需要对医学文本进行文本处理和语义分析,以便更好地评估用户的健康状态,更快地进行医疗业务结算,更准确地进行健康风险的识别。医学文本处理在医学知识图谱构建、临床病历分析、医学文献文本挖掘、医疗保险理赔风控等多个领域已经有了实际的应用,随着人工智能与深度学习技术的发展,医学文本处理的准确性在各个领域也取得了长足的进步。
[0003]但是,在医学文本中,不同医疗机构中对同一实体的表述常常有者很大的差异,例如有些医疗机构将“氯化钠注射液”称为“生理盐水”,又有些医疗机构将“白蛋白/球蛋白比例”简写为“白球比”,甚至更进一步简写为“A/G”,同一家医疗机构内部甚至也会存在多种混淆使用的表述。如果试图直接对这些实体名称的原始文本进行文本分析,往往无法进行更进一步的处理、统计和分析。这时,我们需要利用技术手段将不同医疗机构中的实体名称表述进行归一化,对齐到预定义好的标准医学实体库上,从而消除实体之间的表述差异,这也就是对码方法或系统的实际需求。
[0004]当前业界对码方法的技术难点主要在于:1)标注数据的收集十分困难,人工标注需要大量的人力成本和时间成本,且区别于通用文本任务的标注,对码方法需要文本标注人员具有医学背景和业务知识培训,2)对码方法的 ...
【技术保护点】
【技术特征摘要】
1.一种医学实体对码方法,其特征在于,包括步骤:A、表征编码,是通过计算将输入文本编码为语义空间中的一个文本表征向量,建立深度学习预训练模型,通过表征编码器来实现;B0、无监督预训练;B1、任务精调,进行对比学习训练,由对比学习训练器来实现。2.根据权利要求1所述的医学实体对码方法,其特征在于,所述步骤A中,包括步骤:A1、输入表征,由输入表征层来实现,是将所述输入文本由离散的文本字符串转换为高维实数域中的连续的向量;A2、编码计算。3.根据权利要求2所述的医学实体对码方法,其特征在于,在所述步骤A1中,输入实体名称S={char1,char2,
…
,char
n
},所述实体名称为由n个字符组成的字符串,n为正整数,通过所述输入表征进行转换,使得所述实体名称中每个字符都被转换成了一个k维的输入向量,k为正整数;将所述输入向量组成的序列进行堆叠组成一个表示所述实体名称的输入信息的输入矩阵I
s
=[emb1,emb2,
…
,emb
n
],I
s
是实数域上的一个n行k列的矩阵;每个所述输入向量均包含了所述每个字符的语义特征,以及所述每个字符在整个文本段中的位置特征。4.根据权利要求3所述的医学实体对码方法,其特征在于,所述步骤A2由编码计算层来实现,是通过多层深度神经网络的计算将所述输入矩阵I
s
转换为一个实体名称的文本表征向量。5.根据权利要求4所述的医学实体对码方法,其特征在于,在所述步骤A2中,对于所述输入矩阵I
s
,经过编码计算后,输出一个m维的文本表征向量E
s
,m为正整数,E
s
是实数域上一个m维的向量。6.根据权利要求5所述的医学实体对码方法,其特征在于,在所属步骤B0中,所述无监督预训练包括掩盖文本预测和后续句子预测,所述掩盖文本预测,包括:将一个完整的文本序列中的词进行掩盖后,训练对码模型根据所述文本序列中的上下文对被掩盖的所述词进行预测;所述后续句子预测,包括:首先选定一个文本集合collection
st
={st0,st1,st2,
…
,st
m1
},所述文本集合collection
st
中包含m1个句子,从所述文本集合collection
st
中随机抽出一个句子对(st
q
,st
q
),0≤p,q≤m1,利用分类模型判断所述句子st
q
是否为句子st
p
的后续相邻句子,m1,p,q为正整数。7.根据权利要求1
‑
6任一项所述的医学实体对码方法,其特征在于,在所述步骤B1中,对比学习的每个数据样...
【专利技术属性】
技术研发人员:刘戈杰,郭志扬,
申请(专利权)人:上海栈略数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。