一种基于混合神经网络的事件抽取方法技术

技术编号:35187682 阅读:15 留言:0更新日期:2022-10-12 18:00
本发明专利技术公开了一种基于混合神经网络的事件抽取方法,具体涉及自然语言文本处理技术领域,包括步骤一:对原始文本进行数据预处理,并对原始文本进行分句,得到事件句,再对事件句进行分词、命名体识别,并将事件句序列转换为词向量的形式;步骤二:将以词向量表示的事件句序列传入到双向长短时记忆网络,即(前向和后向两个子LSTM网络),再利用BERT模型来捕捉字级别的语义特征。本发明专利技术利用BERT模型来解决一词多义的问题,且充分考虑了卷积神经网络有效提取文本局部特征与BILSTM网络提取文本全局特征的优势,以及文本在上下文语义中的信息,有效提取了文本的特征。模糊上下文语义的情况被解决,提高了事件抽取的效果。提高了事件抽取的效果。

【技术实现步骤摘要】
一种基于混合神经网络的事件抽取方法


[0001]本专利技术涉及自然语言文本处理
,更具体地说,本专利技术涉及一种基于混合神经网络的事件抽取方法。

技术介绍

[0002]随着医疗大数据的不断普及和电子病历的不断进步,越来越多的医院开始使用电子病历记录患者病情,这导致医疗保健中的数据生成率越来越高。中国病历中包含的知识和发现受到了广泛关注,但大量的电子病历对医学信息的整理提出了挑战;目前,文本信息挖掘已经成为热门技术和需求热点。在这种现象下,事件提取(EE)已成为医学诊断中正确、快速收集患者信息的核心,为医学研究事业开辟了新的前景。事件提取是自然语言处理的一项基本任务。其目的是从无序信息中提取用户感兴趣的事件,并以有序的形式呈现给用户。
[0003]医院的信息化系统发展迅速,出现了大量的电子病历,如何对这些电子病历进行结构化处理研究成了亟待研究的问题;
[0004]目前,数据集数据结构复杂且多样,而在中文病历文本挖掘和利用方面,以往的研究大都缺乏对医学文本信息的全局特征和局部特征的协同考虑。特征的捕捉次数不够,事件提取的效果不太好,故基于上述问题,为此我们设计这样一种基于混合神经网络的事件抽取方法,来解决上述问题。
[0005]在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]为了克服现有技术的上述缺陷,本专利技术的实施例提供一种基于混合神经网络的事件抽取方法,本专利技术所要解决的技术问题是:研究中缺乏对医学文本信息的全局特征和局部特征的协同考虑的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种基于混合神经网络的事件抽取方法,包括如下步骤:
[0008]步骤一:对原始文本进行数据预处理,并对原始文本进行分句,得到事件句,再对事件句进行分词、命名体识别,并将事件句序列转换为词向量的形式;
[0009]步骤二:将以词向量表示的事件句序列传入到双向长短时记忆网络,即(前向和后向两个子LSTM网络),再利用BERT模型来捕捉字级别的语义特征,并将其转换成高维的动态字向量。
[0010]步骤三:将步骤二中BERT输出生成的动态字向量表示输入至BILSTM网络,以获取语义信息,再输入至CNN网络进行上下文学习,以获取全局特征和局部特征。
[0011]步骤四:利用softmax作为分类器来对每个候选触发词进行分类,判断该事件所属类型。
[0012]步骤五:对BILSTM网络和CNN网络上下文学习得到的测试数据进行事件的预测及提取。
[0013]在一个优选地实施方式中,所述步骤一中在得到事件句后根据标注的事件信息,将事件句进行序列标注,触发词根据其类型进行标注,非触发词标注为无类别,得到事件句序列,并将事件句序列以词向量的形式进行表述。
[0014]在一个优选地实施方式中,所述步骤二BERT层中,在Embedding过程中,将给定的由n个字组成的中文句子S={w1,w2,w3,w4,...,w
n
}每一个字w
i
转化成一个维度为768x1的字向量e
i
即E={e1,e2,e3,e4,...,e
n
}。
[0015]在一个优选地实施方式中,所述步骤三在BILSTM层中,动态字向量依次生成后进行点乘与累加操作,得到注意力层的输出,并依据权值大小给隐藏层输出分配相应的注意力资源,构成特征向量的加权语义向量表示,增强病历文本序列的特征表达。
[0016]在一个优选地实施方式中,所述步骤三在BILSTM网络中,由干BILSTM网络包含前向和后向两个子LSTM网络,分别向前和向后传递每个LSTM需要经过网络的前向传播公式,其中h
t
是此时刻的输入,h
t
‑1是上一时刻的记忆输出,W
f
、W
i
、W
c
、W
o
分别是模型的参数。
[0017]本专利技术的技术效果和优点:
[0018]本专利技术由于神经网络具有很强的自适应性和学习能力、非线性映射能力、鲁棒性和容错能力,受到了人们越来越多的重视。然而,对于复杂的电子病历的文本结构,传统的神经网络难以得到令人满意的识别率。该模型使用BERT模型来解决一词多义的问题,且充分考虑了卷积神经网络有效提取文本局部特征与BILSTM网络提取文本全局特征的优势,以及文本在上下文语义中的信息,有效提取了文本的特征。模糊上下文语义的情况被解决。提高了妊娠期糖尿病电子病历中的事件抽取的效果。
附图说明
[0019]图1为本专利技术整体步骤流程图
[0020]图2为本专利技术具体实施流程图。
[0021]图3 CNN卷积神经网络提取文本局部语义特征向量框图
[0022]图4 BILSTM提取文本全局语义特征向量框图。
具体实施方式
[0023]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本公开的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
[0024]此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
[0025]实施例
[0026]结合附图1

4所示,实施方式具体为:
[0027]本专利技术提供了一种基于混合神经网络的事件抽取方法,现结合附图对本专利技术作进一步详细的说明,具体实现和训练步骤如下(以妊娠期糖尿病患者的真实病历为应用场景):
[0028]步骤一:对原始文本进行数据预处理,并对原始文本进行分句,得到事件句,再对事件句进行分词、命名体识别,并将事件句序列转换为词向量的形式;
[0029]具体为:事件句表达为L={x1,x2,...,xi,...,xn},其中xi为句子中第i个词,n表示事件句长度,在对事件句L进行人工标注,在标注过程中,将非触发词标记为无类型,触发词根据所属新闻事件类别进行标注,得到事件句序列;
[0030]通过开源工具包word2vec训练文本得到词向量,采用skip

gram模型,根据训练得到的词向量,将事件句序列中每个词表述为一个指定长度的向量;
[0031]将每个事件句处理成词向量表述的序列形式,即每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合神经网络的事件抽取方法,其特征在于,包括如下步骤:步骤一:对原始文本进行数据预处理,并对原始文本进行分句,得到事件句,再对事件句进行分词、命名体识别,并将事件句序列转换为词向量的形式;步骤二:将以词向量表示的事件句序列传入到双向长短时记忆网络,即(前向和后向两个子LSTM网络),再利用BERT模型来捕捉字级别的语义特征,并将其转换成高维的动态字向量;步骤三:将步骤二中BERT输出生成的动态字向量表示输入至BILSTM网络,以获取语义信息,再输入至CNN网络进行上下文学习,以获取全局特征和局部特征;步骤四:利用softmax作为分类器来对每个候选触发词进行分类,判断该事件所属类型。步骤五:对BILSTM网络和CNN网络上下文学习得到的测试数据进行事件的预测及提取。2.根据权利要求1所述的一种基于混合神经网络的事件抽取方法,其特征在于:所述步骤一中在得到事件句后根据标注的事件信息,将事件句进行序列标注,触发词根据其类型进行标注,非触发词标注为无类别,得到事件句序列,并将事件句序列以词向量的形式进行表述。3.根据权利要求1所述的一种基于混合神经网络的事件抽取方法,其特征在于:所述步骤二BERT层中,在Embedding过程...

【专利技术属性】
技术研发人员:张锋程振宁陈婕卿曾可姜会珍杨鲤银
申请(专利权)人:北京安妮福克斯信息咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1