【技术实现步骤摘要】
基于指针网络生成规范化医疗文本的方法、装置及系统
[0001]本专利技术书一个或多个实施例涉及医疗信息数据处理
,尤其涉及一种基于指针网络生成规范化医疗文本的方法、装置及系统。
技术介绍
[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
[0003]病历,是医务人员对患者疾病的发生、发展、转归进行检查、诊断、治疗等医疗活动过程中所形成的资料的总和。病历质量控制是医疗质量管理的重要组成部分。书写完整、规范的病历可以保证病案的真实性、及时性、客观性以及医疗行为的可追溯性,从而提高医疗管理水平,预防以及减少医疗纠纷。
[0004]因此,医疗文本的规范化非常重要,而现有的文本规范化模型通常需要专业人士收集规范化表达方式,然后将文本规范化任务转换成文本分类任务,从而实现将医疗 ...
【技术保护点】
【技术特征摘要】
1.基于指针网络生成规范化医疗文本的方法,其特征在于,包括:基于未规范化的医疗文本的字序列,得到规范化的医疗文本的字序列编码表示;其中,使用专业人员标注的医疗文本作为训练集,未规范化的医疗文本为源端,规范化的医疗文本为目标端;根据所述规范化的医疗文本的字序列编码表示,使用基于指针网络的序列到序列方法训练文本规范化模型,获得规范化医疗文本。2.根据权利要求1所述的方法,其特征在于,所述基于未规范化的医疗文本的字序列,得到规范化的医疗文本的字序列编码表示,具体为:对未规范化的医疗文本的字序列进行处理,得到未规范化的医疗文本的字序列编码表示;基于所述未规范化的医疗文本的字序列编码表示和注意力机制模块,获得规范化的字序列编码表示。3.根据权利要求2所述的方法,其特征在于,所述对未规范化的医疗文本的字序列进行处理,得到未规范化的医疗文本的字序列编码表示,具体为:X=[x1,x2…
,x
n
]表示未规范化的医疗文本的字序列,V=[v1,v2,
…
,v
n
]表示未规范化的医疗文本的字序列经过医疗文本预训练后字向量编码后的结果:v
i
=f
emb
(x
i
);定义Self
enc
()为基于自注意力机制的编码器计算单元,每个字经过编码器的编码表示由以下公式计算得到:其中,表示第n层中第t个字序列的编码表示,使用编码器,得到最顶层的编码表示h
N
。4.根本权利要求3所述的方法,其特征在于,所述基于所述未规范化的医疗文本的字序列编码表示和注意力机制模块,获得规范化的字序列编码表示,具体为:定义y=[y1…
,y
n
]表示规范化后结果的字序列,U=[u1,
…
,u
n
]表示字序列经过预训练字向量处理后得到的矩阵,其中,u
i
表示第i个字的向量:u
i
=f
emb
(y
i
)定义Self
dec
()为基于自注意力的解码器计算单元,解码器在t时刻的输出隐状态由下式计算得到:其中,h
N
表示编码器得到的隐状态,为目标端第n层中第t个字序列的解码表示,u
t
表示t时刻解码器的输入。5.根据权利要求4所述的方法,其特征在于,所述根据规范化的医疗文本的字序列编码表示,使用基于指针网络的序列到序列方法训练文本规范化模型,获得规范化医疗文本,具体为:所述规范化的医疗文本的字序列编码表示经过softmax计算,得到指针网络中生成的概率分布Prob
gen
;计算指针网络中的复制机制的得分Prob
copy
;
基于所述概率分布Prob
gen
和所述Prob
copy
,获得规范化的医疗文本。6.根据权利要求5所述的方法,其特征在于,所述基于规范化的医疗文本的字序...
【专利技术属性】
技术研发人员:王亦宁,梁家恩,
申请(专利权)人:云知声智能科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。