当前位置: 首页 > 专利查询>浙江大学专利>正文

一种面向医药说明书文本的结构化信息抽取方法技术

技术编号:29042471 阅读:18 留言:0更新日期:2021-06-26 05:52
本发明专利技术公开了一种面向医药说明书文本的结构化信息抽取方法,属于医疗自然语言处理技术领域。首先,采用一种面向无标注数据的基于对抗迁移学习的实体识别模型,进行医药说明书文本的初步实体识别。接着,在实体识别基础上,提出一种用法用量表抽取新任务,即将用法用量文本中复杂的知识结构以表格的形式抽取出来。并针对此任务,设计一种基于特征融合的表抽取算法,来进行说明书用法用量的表抽取。最后,在实体识别的基础上,采用一种基于医疗实体字符注意力机制的关系抽取方法,来对实体之间的关系进行抽取。本发明专利技术提出的结构化信息抽取方法可以解决医药说明书文本的复杂信息抽取问题。可以解决医药说明书文本的复杂信息抽取问题。可以解决医药说明书文本的复杂信息抽取问题。

【技术实现步骤摘要】
一种面向医药说明书文本的结构化信息抽取方法


[0001]本专利技术属于自然语言处理
,具体涉及一种面向中文医疗文本的结构化信息抽取方法。

技术介绍

[0002]医药说明书作为用户选择和使用药品的指南,其中包含着丰富的实体和关系等信息,抽取出这些结构化的信息,对医学研究和临床诊断具有重要意义。实体识别和关系抽取技术,能够从非结构化的文本中抽取出结构化的信息,是医疗文本处理任务的基础。
[0003]面向医药说明书的结构化信息抽取第一步需要进行实体识别,当前主流的基于深度学习的实体关系识别方法需要大量的标注语料来进行训练,但是在中文医疗领域,尤其是医药说明书,标注好的数据远少于未标注的数据,而且由于医疗数据的特殊性,医疗数据的标注需要特定领域专家来指导进行,而且需要较多的人来标注,需要耗费大量的人力物力财力,显然代价是昂贵的,所以医药文本的信息抽取任务受到一定的限制,需要相关的方法来解决标注数据不足的问题。
[0004]医药说明书的用法用量文本具有复杂的知识结构,同一种药品,针对不同疾病,具有不同的用法,即使是针对用同一种疾病,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向医药说明书文本的结构化信息抽取方法,其特征在于,包括以下步骤:(1)命名实体识别:针对未标注的说明书文本,采用对抗迁移学习技术来进行初步命名实体识别;(2)说明书的用法用量表抽取:利用说明书文本中包含的特征,采用基于特征融合的用法用量表抽取算法得到结构化的用法用量表信息;(3)医疗关系抽取:利用组成医疗实体的字符可以表达丰富的语义信息这一特征,结合注意力机制,来对实体之间的关系进行抽取,最终得到结构化的医疗实体关系三元组信息。2.如权利要求1所述的方法,其特征在于:所述步骤(1)包括以下子步骤:(1.1)输入为源领域和目标领域的文本,首先进行字符嵌入,采用BERT预训练模型获得基于上下文的词向量表示;(1.2)将提取到的特征向量x作为接下来特征提取层的输入,该层采用BiLSTM来对输入向量进行特征提取,其中x
S
∈S和x
T
∈T分别表示来自源域和目标域的输入文本。BiLSTM网络在LSTM的基础上,采用了双向结构,分别从前向后和从后向前提取序列特征,更好地从时序特征角度对本方法特征进行提取,因此更适用于文本处理任务,隐藏层的状态h
i
可以表示如下:如下:如下:其中,和分别表示LSTM网络中第i个单元的前向和后向隐藏状态,+表示连接操作。(1.3)将BiLSTM的特征提取结果输入对抗训练层,该层首先利用源领域数据训练一个实体分类器,该分类器是前馈神经网络后接条件随机场CRF分类模型,对提取到的数据和特征进行实体识别,其损失函数定义如下:接着训练一个领域鉴别器,领域鉴别器是前馈神经网络后接Softmax模型,其损失涵数定义如下:通过训练使得模型最终不能区分源域和目标域,使得特征提取器具有领域不变性,源领域训练的模型可以应用到目标领域。(1.4)通过以上步骤,最终得到一个在医药说明书领域具有较好的实体识别效果的模型。3.如权利要求1所述的方法,其特征在于:步骤(2)包括以下子步骤:(2.1)用法用量表抽取是本发明提出的新任务,对该任务的形式化定义如下:表抽取的输入为文本T和文本中包含的实体集合E,输出为table={t1,t2,...t
k
...,
t
n
},其中t
k
表示表格中的一行内容,而且t
k
={condition,dosage}表示在某一条件(condition)下该药品的...

【专利技术属性】
技术研发人员:陈珂崔婷婷陈刚寿黎但胡天磊伍赛
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1