当前位置: 首页 > 专利查询>中南大学专利>正文

基于深度学习的中文电子病历实体及关系联合抽取方法技术

技术编号:27774413 阅读:85 留言:0更新日期:2021-03-23 13:05
本发明专利技术公开了一种基于深度学习的中文电子病历实体及关系联合抽取方法,包括:1,预处理得到语句序列特征的每个字对应的特征向量X;2,将待抽取的关系用三元组表示为(s,r,o);将X作为实体抽取层网络的输入,预测获得实体subject的实体信息;3,将X和实体信息拼接作为自注意力机制的key和value,获取注意力权重α,将α和1‑α分别作为权重,以加权求和的方式得到两者结合的信息向量;4,基于信息向量获得实体object的首尾位置和关系类别r;5,基于三元组(s,r,o),根据实体subject的实体类别和关系类别r,得到实体object的实体类别。本发明专利技术对关系重叠和单句多关系的识别效果良好,解决了实体信息和编码信息的自适应结合问题,能够准确有效地联合抽取中文电子病历中的实体及关系。

【技术实现步骤摘要】
基于深度学习的中文电子病历实体及关系联合抽取方法
本专利技术属于自然语言处理领域,特别涉及一种基于深度学习的中文电子病历实体及关系联合抽取方法。
技术介绍
电子病历是对患者病情信息的一种记录,充分利用电子病历可以提高医疗质量和效率,降低医疗风险和差错。电子病历中,有很多实体及对应的关系,比如疾病和药物、身体部位和病症相关的关系,充分抽取和利用这些关系有着重要的医学研究价值。但从数量庞大的电子病历中抽取实体及对应的关系需要耗费大量的人力和时间,因此,准确有效地抽取医学文本中的实体及关系对医学价值利用有着重要的意义。基于深度学习的实体及关系联合抽取模型一般是基于序列编码器以及相关变体来提取语句特征,然后再使用不同的策略学习实体和关系,从而实现实体和关系的联合抽取。Miwa等人提出了基于序列和树结构的LSTMs实体和关系联合抽取方法,使用序列和树结构分别提取实体和关系,但是这两个任务的编码方式并不是共享,而且是先抽取所有实体,然后进行关系抽取,并不是完全同步进行。另外,由于树结构比较依赖外部NLP工具,这样NLP工具产生的误差也会传递到实体关系抽取任务中。Zheng等人提出了一种新的实体关系标注方案,将实体关系联合抽取转化成序列标注问题,再使用BI-LSTM为编码,嵌入层为字向量,解码过程使用单向LSTM,获取签序列信息,实现实体和关系的联合抽取。该方法虽然将实体关系抽取简化为了序列标注问题,但是其标注方式不适用于关系重叠的情况,即一个实体与多类实体同时含有关系。针对关系抽取模型中处理关系重叠问题的局限性,Su等人设计了一种层次化二元标注的框架来应对这个问题。这个框架将三元组的抽取任务建模为三个级别的问题,从而能够更好地解决三元组重叠的问题。其核心观点就是不再将关系抽取的过程看作实体对的离散标签,而是将其看作两个实体的映射关系。给定一个三元组(s,r,o),其中,s为subject,表示三元组的第一个实体;o为object,表示三元组的第二个实体;r表示第一个实体和第二个实体的关系类别。框架分为3层任务计算,第一层预测出来subject标签,第二层根据预测出来的subject标签预测object,第三层通过预测出来的s和o预测两个实体的关系类别。但是,其忽略了实体类别信息,在预测第一个实体的起始和结尾部分时,没有区分实体类别,相当于将所有关系中的第一个实体归为一个类别。另外,在使用第一个实体和编码层信息预测第二个实体时,只是将两者信息相加,进一步影响关系抽取的结果。在此背景下,研究一种基于层次多元标签,且能自适应地结合实体信息和编码信息的中文电子病历实体及关系联合抽取的方法尤为重要。
技术实现思路
本专利技术的目的在于,针对现有方法中对关系重叠和单句多关系的识别效果不佳、实体信息和编码信息不能自适应结合的问题,提供一种基于深度学习的中文电子病历实体及关系联合抽取方法,对关系重叠和单句多关系的识别效果良好,解决了实体信息和编码信息的自适应结合问题,能够更加准确有效地联合抽取中文电子病历中的实体及关系。为解决上述技术问题,本专利技术所采用的技术方案是:一种基于深度学习的中文电子病历实体及关系联合抽取方法,其特点是包括以下步骤:步骤1,预处理电子病历中的文本语料,将电子病历分句分字,并对获得的语句进行编码,提取得到语句序列特征的每个字对应的特征向量X;步骤2,将待抽取的关系用三元组表示为(s,r,o),其中s为subject并代表三元组的第一个实体,o为object并代表三元组的第二个实体,r代表实体subject和实体object的关系类别;将步骤1获得的特征向量X作为实体抽取层网络的输入,预测获得语句序列中的实体subject的实体信息,其中实体subject的实体信息包括实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别;步骤3,将步骤1所得的特征向量X和步骤2所得的实体信息进行拼接,作为自注意力机制的key和value,获取注意力权重α,将α和1-α分别作为特征向量X和实体信息的权重,以加权求和的方式得到特征向量X和实体信息两者结合的信息向量;步骤4,基于步骤3获得的特征向量,获得语句序列中的实体object的起始位置、实体object的结尾位置和关系类别r;步骤5,基于三元组(s,r,o),根据步骤2获得的实体subject的实体类别和步骤4获得的关系类别r,得到实体object的实体类别。作为一种优选方式,所述步骤1中,对电子病历分句时,在单句语句的起始位置处添加用于表示整个句子的特征的字符串[CLS],在单句语句的结尾位置处添加用于表示单句语句的分割点的字符串[CLS]。作为一种优选方式,使用BERT模型作为编码器对语句进行编码。作为一种优选方式,所述步骤2中,将步骤1获得的字向量X作为实体抽取层网络的输入后:首先,求得语句序列中的每个字为实体subject的起始位置且实体类别为实体subject选定实体类别的概率Ps_start,求得语句序列中的每个字为实体subject的结尾位置且实体类别为实体subject选定实体类别的概率Ps_end;然后,设定实体subject起始位置的概率阈值为sstart、实体subject结尾位置的概率阈值为send;找出Ps_start中所有大于sstart的值,得到对应的实体subject的起始位置和起始位置实体类别;找出Ps_end中所有大于send的值,得到对应的实体subject的结尾位置和结尾位置实体类别;最后,根据实体subject的起始位置和起始位置实体类别,找出大于并最接近该实体subject的起始位置且结尾位置实体类别与起始位置实体类别一致的实体subject的结尾位置,即得到实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别。作为一种优选方式,Ps_start的计算公式为:Ps_start=σ(Ws_startx+bs_start);Ps_end的计算公式为:Ps_end=σ(Ws_endx+bs_end);其中,Ps_start和Ps_end均表示大小为n×me的概率矩阵,其中n表示语句序列的长度,me表示实体subject的实体类别数量,Ps_start中第i行第j列的元素表示语句序列中第i个字为实体subject的起始位置且实体类别为yi的概率,Ps_end中第i行第j列的元素表示语句序列中第i个字为实体subject的结尾位置且实体类别为yi的概率;σ为激活函数sigmod;Ws_start为指针在实体subject起始位置的权重矩阵;Ws_end为指针在实体subject结尾位置的权重矩阵;bs_start为实体subject在起始位置的偏置;bs_end为实体subject在结尾位置的偏置。作为一种优选方式,所述步骤3中,使用神经网络的方式获取注意力权重α的过程包括:首先,将向量Vk和编码层向量X进行拼接,得到[X;本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,包括以下步骤:/n步骤1,预处理电子病历中的文本语料,将电子病历分句分字,并对获得的语句进行编码,提取得到语句序列特征的每个字对应的特征向量X;/n步骤2,将待抽取的关系用三元组表示为(s,r,o),其中s为subject并代表三元组的第一个实体,o为object并代表三元组的第二个实体,r代表实体subject和实体object的关系类别;将步骤1获得的特征向量X作为实体抽取层网络的输入,预测获得语句序列中的实体subject的实体信息,其中实体subject的实体信息包括实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别;/n步骤3,将步骤1所得的特征向量X和步骤2所得的实体信息进行拼接,作为自注意力机制的key和value,获取注意力权重α,将α和1-α分别作为特征向量X和实体信息的权重,以加权求和的方式得到特征向量X和实体信息两者结合的信息向量;/n步骤4,基于步骤3获得的信息向量,预测获得语句序列中的实体object的起始位置、实体object的结尾位置和关系类别r;/n步骤5,基于三元组(s,r,o),根据步骤2获得的实体subject的实体类别和步骤4获得的关系类别r,得到实体object的实体类别。/n...

【技术特征摘要】
1.一种基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,包括以下步骤:
步骤1,预处理电子病历中的文本语料,将电子病历分句分字,并对获得的语句进行编码,提取得到语句序列特征的每个字对应的特征向量X;
步骤2,将待抽取的关系用三元组表示为(s,r,o),其中s为subject并代表三元组的第一个实体,o为object并代表三元组的第二个实体,r代表实体subject和实体object的关系类别;将步骤1获得的特征向量X作为实体抽取层网络的输入,预测获得语句序列中的实体subject的实体信息,其中实体subject的实体信息包括实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别;
步骤3,将步骤1所得的特征向量X和步骤2所得的实体信息进行拼接,作为自注意力机制的key和value,获取注意力权重α,将α和1-α分别作为特征向量X和实体信息的权重,以加权求和的方式得到特征向量X和实体信息两者结合的信息向量;
步骤4,基于步骤3获得的信息向量,预测获得语句序列中的实体object的起始位置、实体object的结尾位置和关系类别r;
步骤5,基于三元组(s,r,o),根据步骤2获得的实体subject的实体类别和步骤4获得的关系类别r,得到实体object的实体类别。


2.如权利要求1所述的基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,所述步骤1中,对电子病历分句时,在单句语句的起始位置处添加用于表示整个句子的特征的字符串[CLS],在单句语句的结尾位置处添加用于表示单句语句的分割点的字符串[CLS]。


3.如权利要求1所述的基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,使用BERT模型作为编码器对语句进行编码。


4.如权利要求1所述的基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,所述步骤2中,将步骤1获得的字向量X作为实体抽取层网络的输入后:
首先,求得语句序列中的每个字为实体subject的起始位置且实体类别为实体subject选定实体类别的概率Ps_start,求得语句序列中的每个字为实体subject的结尾位置且实体类别为实体subject选定实体类别的概率Ps_end;
然后,设定实体subject起始位置的概率阈值为sstart、实体subject结尾位置的概率阈值为send;找出Ps_start中所有大于sstart的值,得到对应的实体subject的起始位置和起始位置实体类别;找出Ps_end中所有大于send的值,得到对应的实体subject的结尾位置和结尾位置实体类别;
最后,根据实体subject的起始位置和起始位置实体类别,找出大于并最接近该实体subject的起始位置且结尾位置实体类别与起始位置实体类别一致的实体subject的结尾位置,即得到实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别。


5.如权利要求4所述的基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,
Ps_start的计算公式为:Ps_start=σ(Ws_startx+bs_start);
Ps_end的计算公式为:Ps_end=σ(Ws_endx+bs_end);
其中,Ps_start和Ps_end均表示大小为n×me的概率矩阵,其中n表示语句序列的长度,me表示实体subject的实体类别数量,Ps_start中第i行第j列的元素表示语句序列中第i个字为实体subject的起始位置且实体类别为yi的概率,Ps_e...

【专利技术属性】
技术研发人员:高琰刘正涛王艳东郭昊强
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1