一种融合注意力机制与卷积神经网络的事件抽取方法技术

技术编号:37250689 阅读:28 留言:0更新日期:2023-04-20 23:29
本发明专利技术公开了一种融合注意力机制与卷积神经网络的事件抽取方法,其步骤包括:1)利用文本编码器对待提取文本内容进行特征表示,得到该待提取文本的分布式特征;2)利用特征提取器从所述分布式特征中提取该待提取文本的语境特征及词汇之间的关联信息;3)将该待提取文本的语境特征及词汇之间的关联信息输入事件触发词分类器,输出该待提取文本的事件触发词,然后基于该待提取文本的事件触发词确定该待提取文本的事件类型;4)事件元素分类器根据该待提取文本的事件类型、语境特征,对该待提取文本中每个分词依次进行判断是否为事件元素;5)使用元素角色分类器识别每一所述事件元素的角色类别。本发明专利技术大大提升了事件抽取的准确率且效率高。确率且效率高。确率且效率高。

【技术实现步骤摘要】
一种融合注意力机制与卷积神经网络的事件抽取方法


[0001]本专利技术属于自然语言处理领域的信息抽取技术,特别是,实现一种融合注意力机制与卷积神经网络的事件抽取方法。

技术介绍

[0002]信息抽取是从自然语言文本中抽取出特定的信息,从而将海量异构文本内容自动分类、提取和重构。信息抽取主要包括实体抽取、关系抽取、事件抽取,其中,事件抽取是将各种实体与关系高度结构化的抽取任务。事件抽取是从半结构、非结构化文本中,将目标相关的事件的重要论元识别出来,即通过获取事件触发词及事件相关论元信息,组织为事件信息,被广泛应用于语义搜索、情报分析、事件推理、风险预警、智能问答等领域。事件抽取任务分为事件识别与事件论元识别两部分,即发现事件触发词并确定事件类型、识别事件关键论元并确定论元角色。由于以事件为单位认识世界与解决问题更符合人类认知习惯,因此,事件抽取成为国内外工业界和学术界关注的热点。近年来,这些研究工作大部分是依赖深度学习来获取事件信息,目前,现有的事件抽取方法根据其使用的神经网络架构不同主要分为以下几类:
[0003](1)基于卷积神经网络的事件抽取,使用卷积神经网络诱导k

grams信息,捕获局部语义特征,学习句子的组成语义特征,完成对事件信息的识别与抽取。这种方法可以处理多事件场景。但是,无法在不同上下文中编码词汇语义,若是想要获取更多的全局信息就需要层叠增大感受野。
[0004](2)基于循环神经网络的事件抽取,使用循环神经网络建模序列信息,捕获参数角色和触发词子类型之间的依赖关系,挖掘文本中的时序信息与长距离关系。这种方法可以有效分析长依赖性文本,但是其本质是马尔科夫决策过程,无法很好学习全局的结构信息,忽略实体对的位置信息,同时,无法并行执行,速度较慢。
[0005](3)基于注意力机制的事件抽取,学习不同距离词之间的依赖关系,分析词之间的权重判定语义关系重复利用事件模式信息,简化数据标注。这种方法可以捕捉重要语义信息能有效利用全局信息,但是,直接将序列两两比较,无法对位置进行很好的建模。
[0006](4)基于上述神经网络的组合的事件抽取,通过堆叠两种或多种神经网络,提升对语义特征的抽取能力,可验证融合不同神经网络提升事件抽取的准确率和效率是有效的。
[0007]然而,现有目前的事件抽取方法仍然缺乏对文本中的语义特征的充分利用,忽视在事件抽取流程中事件类型与事件论元之间的语义相关性对于事件抽取准确率的提升。融合多种神经网络是一种有效的特征提取方式,但是,如何设计合适的神经网络实现对语义相关性的充分利用仍然有待研究。

技术实现思路

[0008]本专利技术的目的在于充分利用文本中语义相关性,设计一个融合多个神经网络的事件抽取方法,该方法能够实现在保证事件抽取的效率的情况下,提升事件抽取的准确率。
[0009]为达到以上目的,本专利技术采用的技术方案是:一种融合注意力机制与卷积神经网络的事件抽取方法,其特点在于:(1)通过卷积神经网络有效获取文学句子中的组合语义特征向量,对组合语义特征向量执行最大池化操作得到句子级别的局部特征与语义结构;(2)融合注意力机制通过计算同一句子中单词间的互相影响,来解决长距离依赖问题,注意力融合了来自于相同的注意力汇聚产生的不同的知识,这些知识的不同来源于相同的查询、键和值的不同的子空间表示,能够有效减少文本噪音对抽取效果的影响;(3)通过加载预训练模型(比如BERT)生成的词向量为每个输入的单词映射对应的词向量表示,即通过微调动态地生成融合上下文信息的特征向量,将纯文本表示为分布式特征信息,实现使每个单词的隐状态都包含句子中不同位置单词的影响,同时避免参数空间的稀疏性。
[0010]一种融合注意力机制与卷积神经网络的事件抽取方法,其步骤包括:
[0011]1)利用文本编码器对待提取文本内容进行特征表示,得到该待提取文本的分布式特征;
[0012]2)利用特征提取器从所述分布式特征中提取该待提取文本的语境特征及词汇之间的关联信息;
[0013]3)将该待提取文本的语境特征及词汇之间的关联信息输入事件触发词分类器,输出该待提取文本的事件触发词,然后基于该待提取文本的事件触发词确定该待提取文本的事件类型;
[0014]4)事件元素分类器根据该待提取文本的事件类型、语境特征,对该待提取文本中每个分词依次进行判断是否为事件元素;
[0015]5)使用元素角色分类器识别每一所述事件元素的角色类别。
[0016]进一步的,得到该待提取文本的分布式特征的方法为:所述文本编码器根据该待提取文本生成文本序列S=[x1,x2,x3,..,x
n
],其中,n为该待提取文本中的分词数,x
i
为该待提取文本中的第i个分词;然后对文本序列S中每一分词分别生成一词嵌入向量、分割向量、位置向量,将文本序列S以词嵌入向量、分割向量、位置向量三者求和的方式转换为输入序列T=(t1,t2,t3,..,t
n
),t
n
表示第n个分词的词嵌入向量、分割向量和位置向量合并后的融合向量;将序列T=(t1,t2,t3,..,t
n
)输入Transformer层通过自注意力函数获取词间关联并分配权重,得到融合上下文信息的特征向量;将所述融合上下文信息的特征向量输入预训练模型,得到序列E
m
={e1,e2,e3,...,e
n
},即该待提取文本的分布式特征;e
n
为第n个分词对应的词向量表示。
[0017]进一步的,所述特征提取器包括双向长短时记忆网络、卷积层和注意力单元;提取该待提取文本的语境特征及词汇之间的关联信息的方法为:首先将所述分布式特征输入所述双向长短时记忆网络,得到序列特征向量并输入所述卷积层;所述卷积层对所述序列特征向量进行卷积计算,得到该待提取文本的局部特征与语义结构高维特征向量;将所述语义结构高维特征向量输入所述注意力单元,得到该待提取文本中每一分词x
i
与目标实体的相关性特征向量r
i
,其中i∈[1,n]。
[0018]进一步的,所述事件触发词分类器将和r
i
拼接后输入至条件随机场中,得到该待提取文本中每一分词x
i
对应的事件类型;为分词x
i
对应的语义结构高维特征向量。
[0019]进一步的,所述预训练模型为BERT模型。
[0020]一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所
述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
[0021]一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
[0022]本专利技术通过文本编码器、特征提取器、事件触发词分类器、事件元素分类器、元素角色分类器完成事件抽取,步骤包括:...

【技术保护点】

【技术特征摘要】
1.一种融合注意力机制与卷积神经网络的事件抽取方法,其步骤包括:1)利用文本编码器对待提取文本内容进行特征表示,得到该待提取文本的分布式特征;2)利用特征提取器从所述分布式特征中提取该待提取文本的语境特征及词汇之间的关联信息;3)将该待提取文本的语境特征及词汇之间的关联信息输入事件触发词分类器,输出该待提取文本的事件触发词,然后基于该待提取文本的事件触发词确定该待提取文本的事件类型;4)事件元素分类器根据该待提取文本的事件类型、语境特征,对该待提取文本中每个分词依次进行判断是否为事件元素;5)使用元素角色分类器识别每一所述事件元素的角色类别。2.根据权利要求1所述的方法,其特征在于,得到该待提取文本的分布式特征的方法为:所述文本编码器根据该待提取文本生成文本序列S=[x1,x2,x3,..,x
n
],其中,n为该待提取文本中的分词数,x
i
为该待提取文本中的第i个分词;然后对文本序列S中每一分词分别生成一词嵌入向量、分割向量、位置向量,将文本序列S以词嵌入向量、分割向量、位置向量三者求和的方式转换为输入序列T=(t1,t2,t3,..,t
n
),t
n
表示第n个分词的词嵌入向量、分割向量和位置向量合并后的融合向量;将序列T=(t1,t2,t3,..,t
n
)输入Transformer层通过自注意力函数获取词间关联并分配权重,得到融合上下文信息的特征向量;将所述融合上下文信息的特征向量输入预训练模型,得到序列E...

【专利技术属性】
技术研发人员:周永彬周沁仪林海伦张倩
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1