一种基于关系分类与序列标注的嵌套命名实体识别方法技术

技术编号:34008675 阅读:24 留言:0更新日期:2022-07-02 14:02
本发明专利技术提供一种基于关系分类与序列标注的嵌套命名实体识别方法;通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告;该发明专利技术提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中嵌套实体命名识别的痛点问题,帮助进行高级医疗决策支持。持。持。

【技术实现步骤摘要】
一种基于关系分类与序列标注的嵌套命名实体识别方法


[0001]本专利技术涉及人工智能和医疗电子信息技术的交叉
,特别涉及一种基于关系分类与序列标注的嵌套命名实体识别方法。

技术介绍

[0002]随着医疗健康服务不断朝着智能化方向发展,机器学习在医疗领域的应用开始成为人工智能时代的研究热点之一。非结构化医疗文档是放射科医生对影像表现的描述与总结,蕴含大量对病灶的描述。从非结构化医疗文本中提取这些重要信息,能够更好地服务于临床决策、数据挖掘等各类临床信息系统,从而减轻专业医师的工作量。目前计算机难以从这些不规则的非结构化医疗文本数据中直接提取有价值的信息,从而无法利用ElasticSearch等搜索引擎进一步对数据进行挖掘分析。因此,如何从医学影像报告中自动、高效地提取所需信息,形成结构化的数据,并建立文本描述和影像病灶的关联,是目前智能医疗服务进程中的重要挑战之一。
[0003]嵌套实体识别是实体命名识别中一个子问题,使用CRF等传统标注方法无法对嵌套实体进行区分,因此存在一定的局限性。
[0004]本专利技术提供了一种基于关系分类与序列标注的嵌套命名实体识别方法。该专利技术提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中嵌套实体命名识别的痛点问题,帮助进行高级医疗决策支持。

技术实现思路

[0005]本专利技术针对现有技术中的不足,提供一种基于关系分类与序列标注的嵌套命名实体识别方法;本申请综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告。该专利技术提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中嵌套实体命名识别的痛点问题,帮助进行高级医疗决策支持。
[0006]为实现上述目的,本专利技术采用以下技术方案:
[0007]一种基于关系分类与序列标注的嵌套命名实体识别方法,包括以下步骤:
[0008]S1、确定需要进行嵌套命名实体识别任务的非结构化医疗文本,并分割为训练集文本和测试集文本;
[0009]S2、通过训练集文本,基于关系分类与序列标注的嵌套命名实体识别框架模型对训练集文本内容中的潜在实体进行识别训练,并对嵌套命名实体识别框架模型进行优化;具体包括:
[0010]S2.1、通过训练集寻找潜在的实体集合S
e

[0011]S2.2、确定实体集合S
e
中各个实体的类型;
[0012]S2.3、对嵌套命名实体识别框架模型进行优化;
[0013]S3、将测试集文本作为嵌套命名实体识别框架模型的输入,送入训练优化后的嵌
套命名实体识别框架模型中进行计算得出测试集文本的实体识别结果。
[0014]为优化上述技术方案,采取的具体措施还包括:
[0015]进一步地,所述步骤S2.1的具体内容为:
[0016]S2.1.1、将训练集文本作为输入,送到嵌套命名实体识别框架模型中;其中所述训练集文本包括:原始文本序列S=(w1,w2,

w
n
),以及文本中的实体集合L
e
=(p1,p2,

,p
m
);
[0017]式中,w1,w2,

w
n
中均表示为文本中的各个单词,也即表示为文本中的各个token; p1,p2,

,p
m
分别表示为各个实体,其中包含有对应实体所在的位置信息,即L
e
中的任意一个实体p
i
,其包含有一个二元组<w
i_head
,w
i_tail
>,w
i_head
表示第i个实体p
i
的开始位置单词, w
i_tail
表示第i个实体p
i
的结束位置单词,以一个单词作为开始位置,以另外一个单词作为结束位置进而组合成的第i个实体p
i
,其中开始位置的单词记为头Token,结束位置的单词记为尾Token;
[0018]S2.1.2、训练集文本输入至嵌套命名实体识别框架模型的内容输入模块中,将原始文本序列S映射为原始输入序列M
e
=(e1,e2,

e
n
),同时根据实体集合L
e
对其中实体的各个单词进行BIOE形式标注,使得每个实体中的每个单词均有对应的标识,其中任意一个单词的标识都属于标签集合L
b

[0019]式中,e1,e2,

e
n
中的每一个元素均与w1,w2,

w
n
相对应,e1表示为w1的嵌入向量,e2表示为w2的嵌入向量,e
n
表示为w
n
的嵌入向量;标签集合L
b
包含标识B、I、O、E中的所有类型;
[0020]S2.1.3、将原始输入序列M
e
送入到嵌套命名实体识别框架模型的边界预测模块中,通过 Bi

LSTM模型计算输出文本中隐特征向量序列M
he
=(he1,he2,

,he
n
),然后通过前馈神经网络FFNN以文本序列S中当前第i个token:w
i
的位置隐特征向量he
i
作为输入,计算文本内容中每个Token与标签集合L
b
中的标识l联合概率分布以及计算文本序列S中第i个 Token:w
i
属于标识l的条件概率分布p(w
i
=l|S);然后取条件概率最高的标识作为当前位置单词标识的输出,以此边界预测模块输出文本中所有各单词位置的标识信息;其中:
[0021]对于隐特征向量序列M
he
=(he1,he2,

,he
n
),其中文本中任意一个单词位置he
i
对应的隐特征向量计算公式如下:
[0022][0023]式中,he1,he2,

,he
n
表示文本中所有位置对应的隐特征向量;表示后向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量e
i
以及上一个元素e
i
‑1的隐特征向量he
i
‑1;同样的,表示前向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量e
i
以及后一个元素e
i+1
的隐特征向量he
i+1
;最后将两个模型的输入进行Concat操作进行连接,得到本位置的隐特征向量he
i

[0024]对于计算文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,包括以下步骤:S1、确定需要进行嵌套命名实体识别任务的非结构化医疗文本,并分割为训练集文本和测试集文本;S2、通过训练集文本,基于关系分类与序列标注的嵌套命名实体识别框架模型对训练集文本内容中的潜在实体进行识别训练,并对嵌套命名实体识别框架模型进行优化;具体包括:S2.1、通过训练集寻找潜在的实体集合S
e
;S2.2、确定实体集合S
e
中各个实体的类型;S2.3、对嵌套命名实体识别框架模型进行优化;S3、将测试集文本作为嵌套命名实体识别框架模型的输入,送入训练优化后的嵌套命名实体识别框架模型中进行计算得出测试集文本的实体识别结果。2.根据权利要求1所述的一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,所述步骤S2.1的具体内容为:S2.1.1、将训练集文本作为输入,送到嵌套命名实体识别框架模型中;其中所述训练集文本包括:原始文本序列S=(w1,w2,

w
n
),以及文本中的实体集合L
e
=(p1,p2,

,p
m
);式中,w1,w2,

w
n
中均表示为文本中的各个单词,也即表示为文本中的各个token;p1,p2,

,p
m
分别表示为各个实体,其中包含有对应实体所在的位置信息,即L
e
中的任意一个实体p
i
,其包含有一个二元组<w
i_head
,w
i_tail
>,w
i_head
表示第i个实体p
i
的开始位置单词,w
i_tail
表示第i个实体p
i
的结束位置单词,以一个单词作为开始位置,以另外一个单词作为结束位置进而组合成的第i个实体p
i
,其中开始位置的单词记为头Token,结束位置的单词记为尾Token;S2.1.2、训练集文本输入至嵌套命名实体识别框架模型的内容输入模块中,将原始文本序列S映射为原始输入序列M
e
=(e1,e2,

e
n
),同时根据实体集合L
e
对其中实体的各个单词进行BIOE形式标注,使得每个实体中的每个单词均有对应的标识,其中任意一个单词的标识都属于标签集合L
b
;式中,e1,e2,

e
n
中的每一个元素均与w1,w2,

w
n
相对应,e1表示为w1的嵌入向量,e2表示为w2的嵌入向量,e
n
表示为w
n
的嵌入向量;标签集合L
b
包含标识B、I、O、E中的所有类型;S2.1.3、将原始输入序列M
e
送入到嵌套命名实体识别框架模型的边界预测模块中,通过Bi

LSTM模型计算输出文本中隐特征向量序列M
he
=(he1,he2,

,he
n
),然后通过前馈神经网络FFNN以文本序列S中当前第i个token:w
i
的位置隐特征向量he
i
作为输入,计算文本内容中每个Token与标签集合L
b
中的标识l联合概率分布以及计算文本序列S中第i个Token:w
i
属于标识l的条件概率分布p(w
i
=l|S);然后取条件概率最高的标识作为当前位置单词标识的输出,以此边界预测模块输出文本中所有各单词位置的标识信息;其中:对于隐特征向量序列M
he
=(he1,he2,

,he
n
),其中文本中任意一个单词位置he
i
对应的隐特征向量计算公式如下:式中,he1,he2,

,he
n
表示文本中所有位置对应的隐特征向量;表示后
向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量e
i
以及上一个元素e
i
‑1的隐特征向量he
i
‑1;同样的,表示前向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量e
i
以及后一个元素e
i+1
的隐特征向量he
i+1
;最后将两个模型的输入进行Concat操作进行连接,得到本位置的隐特征向量he
i
;对于计算文本序列S中第i个Token:w
i
属于标识l的条件概率分布p(w
i
=l|S)的计算公式如下:φ(l,w
i
)=W
x
·
FFNN(he
i
)式中,he1,he2,

,he
n
均表示文本中所有位置对应的隐特征向量,其文本中任意一个位置的隐特征向量为he
i
;FFNN(he
i
)是指前馈神经网络FFNN以当前第i个Token:w
i

【专利技术属性】
技术研发人员:刘峰方军武殷莉卢苗
申请(专利权)人:南京海泰医疗信息系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1