【技术实现步骤摘要】
基于深度学习的中文电子病历实体及关系联合抽取方法
本专利技术属于自然语言处理领域,特别涉及一种基于深度学习的中文电子病历实体及关系联合抽取方法。
技术介绍
电子病历是对患者病情信息的一种记录,充分利用电子病历可以提高医疗质量和效率,降低医疗风险和差错。电子病历中,有很多实体及对应的关系,比如疾病和药物、身体部位和病症相关的关系,充分抽取和利用这些关系有着重要的医学研究价值。但从数量庞大的电子病历中抽取实体及对应的关系需要耗费大量的人力和时间,因此,准确有效地抽取医学文本中的实体及关系对医学价值利用有着重要的意义。基于深度学习的实体及关系联合抽取模型一般是基于序列编码器以及相关变体来提取语句特征,然后再使用不同的策略学习实体和关系,从而实现实体和关系的联合抽取。Miwa等人提出了基于序列和树结构的LSTMs实体和关系联合抽取方法,使用序列和树结构分别提取实体和关系,但是这两个任务的编码方式并不是共享,而且是先抽取所有实体,然后进行关系抽取,并不是完全同步进行。另外,由于树结构比较依赖外部NLP工具,这样NLP工具产生的误差也会传递到实体关系抽取任务中。Zheng等人提出了一种新的实体关系标注方案,将实体关系联合抽取转化成序列标注问题,再使用BI-LSTM为编码,嵌入层为字向量,解码过程使用单向LSTM,获取签序列信息,实现实体和关系的联合抽取。该方法虽然将实体关系抽取简化为了序列标注问题,但是其标注方式不适用于关系重叠的情况,即一个实体与多类实体同时含有关系。针对关系抽取模型中处理关系重 ...
【技术保护点】
1.一种基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,包括以下步骤:/n步骤1,预处理电子病历中的文本语料,将电子病历分句分字,并对获得的语句进行编码,提取得到语句序列特征的每个字对应的特征向量X;/n步骤2,将待抽取的关系用三元组表示为(s,r,o),其中s为subject并代表三元组的第一个实体,o为object并代表三元组的第二个实体,r代表实体subject和实体object的关系类别;将步骤1获得的特征向量X作为实体抽取层网络的输入,预测获得语句序列中的实体subject的实体信息,其中实体subject的实体信息包括实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别;/n步骤3,将步骤1所得的特征向量X和步骤2所得的实体信息进行拼接,作为自注意力机制的key和value,获取注意力权重α,将α和1-α分别作为特征向量X和实体信息的权重,以加权求和的方式得到特征向量X和实体信息两者结合的信息向量;/n步骤4,基于步骤3获得的信息向量,预测获得语句序列中的实体object的起始位置、实体object的结尾位置和关系类别r;/ ...
【技术特征摘要】
1.一种基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,包括以下步骤:
步骤1,预处理电子病历中的文本语料,将电子病历分句分字,并对获得的语句进行编码,提取得到语句序列特征的每个字对应的特征向量X;
步骤2,将待抽取的关系用三元组表示为(s,r,o),其中s为subject并代表三元组的第一个实体,o为object并代表三元组的第二个实体,r代表实体subject和实体object的关系类别;将步骤1获得的特征向量X作为实体抽取层网络的输入,预测获得语句序列中的实体subject的实体信息,其中实体subject的实体信息包括实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别;
步骤3,将步骤1所得的特征向量X和步骤2所得的实体信息进行拼接,作为自注意力机制的key和value,获取注意力权重α,将α和1-α分别作为特征向量X和实体信息的权重,以加权求和的方式得到特征向量X和实体信息两者结合的信息向量;
步骤4,基于步骤3获得的信息向量,预测获得语句序列中的实体object的起始位置、实体object的结尾位置和关系类别r;
步骤5,基于三元组(s,r,o),根据步骤2获得的实体subject的实体类别和步骤4获得的关系类别r,得到实体object的实体类别。
2.如权利要求1所述的基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,所述步骤1中,对电子病历分句时,在单句语句的起始位置处添加用于表示整个句子的特征的字符串[CLS],在单句语句的结尾位置处添加用于表示单句语句的分割点的字符串[CLS]。
3.如权利要求1所述的基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,使用BERT模型作为编码器对语句进行编码。
4.如权利要求1所述的基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,所述步骤2中,将步骤1获得的字向量X作为实体抽取层网络的输入后:
首先,求得语句序列中的每个字为实体subject的起始位置且实体类别为实体subject选定实体类别的概率Ps_start,求得语句序列中的每个字为实体subject的结尾位置且实体类别为实体subject选定实体类别的概率Ps_end;
然后,设定实体subject起始位置的概率阈值为sstart、实体subject结尾位置的概率阈值为send;找出Ps_start中所有大于sstart的值,得到对应的实体subject的起始位置和起始位置实体类别;找出Ps_end中所有大于send的值,得到对应的实体subject的结尾位置和结尾位置实体类别;
最后,根据实体subject的起始位置和起始位置实体类别,找出大于并最接近该实体subject的起始位置且结尾位置实体类别与起始位置实体类别一致的实体subject的结尾位置,即得到实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别。
5.如权利要求4所述的基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,
Ps_start的计算公式为:Ps_start=σ(Ws_startx+bs_start);
Ps_end的计算公式为:Ps_end=σ(Ws_endx+bs_end);
其中,Ps_start和Ps_end均表示大小为n×me的概率矩阵,其中n表示语句序列的长度,me表示实体subject的实体类别数量,Ps_start中第i行第j列的元素表示语句序列中第i个字为实体subject的起始位置且实体类别为yi的概率,Ps_e...
【专利技术属性】
技术研发人员:高琰,刘正涛,王艳东,郭昊强,
申请(专利权)人:中南大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。