一种基于共指消歧的文档级事件抽取方法技术

技术编号:39052412 阅读:7 留言:0更新日期:2023-10-12 19:45
本发明专利技术涉及自然语言处理和深度学习技术领域,特别涉及一种基于共指消歧的文档级事件抽取方法。本发明专利技术的主要技术方案包括:通过命名实体识别得到文档中的全部命名实体;通过共指消歧将表示同一事物的实体集合在一起,得到共指实体集合;利用实体交互、句子交互和共指关系对文档进行处理,得到一个以句子为结点的同构图;将具有相似语义或主题的句子集合在一起,并采用句子级注意力机制进行降噪处理,得到句子团体;对句子团体进行分类,得到事件类型,进一步得到对应的论元。通过本发明专利技术的抽取方法,能够有效处理现有文档级事件抽取方法没有考虑共指消歧和句子团体内噪声影响的问题。有考虑共指消歧和句子团体内噪声影响的问题。有考虑共指消歧和句子团体内噪声影响的问题。

【技术实现步骤摘要】
一种基于共指消歧的文档级事件抽取方法


[0001]本专利技术涉及自然语言处理和深度学习
,特别涉及一种基于共指消歧的文档级事件抽取方法。

技术介绍

[0002]作为信息抽取的重要组成部分,事件抽取技术是一种快速理解事件本质内容的关键技术。事件本身是一类特定的信息形式,指在特定的时间、特定的地点发生的某件事,涉及到一个或多个参与者,并且参与者在事件中扮演着不同角色。事件抽取技术旨在将此类信息从非结构化的自然文本中提取出,并组装成结构化形式的知识,具体定义为根据预先指定的事件类型和论元角色,识别给定自然语言句子中所有目标事件类型的事件,并抽取事件所对应的论元(即在事件中充当某些角色的实体)。例如:“王小明生于2022年9月27日,江苏南京人。”这个句子包含的事件对应的事件类型是出生,该事件类型包含的论元角色有姓名、出生日期和出生地点,该句子中与上述论元角色对应的论元分别是“王小明”、“2022年9月27日”和“江苏南京”。
[0003]按照数据粒度,事件抽取可以分为句子级和文档级。相比单个句子,文档级事件抽取更符合直觉,但相应地,难度也更高。文档级事件抽取面临的主要挑战有:一个事件的论元可能分散在文档的多个句子中;文档中混合了多个不同的事件,需要对其进行区分,并为不同的事件识别相应的论元。
[0004]为了解决上述挑战,一方面,针对先前数据集DCFEE中一篇文档只有一个关键事件,而且不能有效地解决论元分散的问题,Zheng等人提出新的数据集ChFinAnn,此数据集是原来的10倍,其中大约30%的文档包含多个事件记录。另一方面,Zheng等人提出了一种新的端到端模型Doc2EDAG,它可以生成一个基于实体的有向无环图来实现文档级事件抽取,将填表任务转换为几个顺序扩展路径的子任务,这些子任务更易于处理。并且将抽取任务视作无需触发词参与的,以简化文档级别的事件标注。
[0005]为了缓解文档长序列难以编码的问题,2021年,Huang等人利用长文本存在实体交互特点,即在同一个句子中存在的实体有更高的概率成为同一事件的论元,以及句子交互特点,即包含同一实体的句子倾向于叙述同一事件,将每个文档转换为无向无权图。每个事件可以表示为一个子图,称作句子团体,使用图注意网络提取多个事件,并通过根据角色预测论元来缓解角色重叠问题,即一个论元可以扮演多个角色的现象。
[0006]值得注意的是,文档数据中,特别是在公告通告等正式文件中,存在大量共指的语言现象,即实体的多种表达形式都指的是现实生活中同一实体。而目前的方法往往没有关注到这一点,一方面这会导致利用实体交互特点所构建的文档图有信息遗漏的问题,另一方面模型的参考答案只有一个,学习难度高。除此之外,目前的方法在检测句子团体,也就是识别表达同一事件的句子集合时,认为只要出现了目标实体的句子都属于该句子团体。这种方式过于粗糙,会引入噪声句子,在对句子团体进行事件抽取时会受到噪声的干扰。

技术实现思路

[0007]本专利技术的目的是解决现有技术忽略文档中的共指现象以及句子团体噪声的问题。一方面,基于共指消歧的文档级事件抽取方法,旨在构建更加完善的文档图,另一方面,利用句子级注意力机制抑制噪声问题,从而提升事件抽取模型的效果。
[0008]为实现上述目的,本专利技术提供一种基于共指消歧的文档级事件抽取方法,方法包括:
[0009]S1、对于输入的文档,通过命名实体识别获取文档中的所有命名实体,组成命名实体集合;
[0010]S2、对于输入的文档,通过共指消歧方法获取若干共指实体集合;
[0011]S3、利用命名实体集合、句子交互和共指实体集合,将文档转化成以句子为结点的同构图;
[0012]S4、提取句子内部的特征,获得句子结点s
i
的特征向量v
i

[0013]S5、在同构图上对每个句子结点的特征向量使用注意力机制,将具有相似语义或主题的句子集合在一起,生成句子团体;
[0014]S6、对句子团体进行分类,获得事件类型,确定论元角色和论元。
[0015]进一步地,所述步骤S2包括:
[0016]S21、对文档中的每个句子进行分词处理,然后编码生成单词表示;
[0017]S22、利用句法依存树和成分树为文档构建基于单词和成分的异构图;
[0018]S23、将异构图输入卷积神经网络,获得融合局部句法信息和全局的文档特征的单词的融合表示;
[0019]S24、根据单词的融合表示,得到文档的所有跨度表示;
[0020]S25、枚举每个跨度表示,根据共指得分得到当前跨度表示对应的先行词,将表示同一事物的实体划分在一起,得到共指实体集合序列。
[0021]进一步地,所述步骤S22构建异构图的步骤包括:
[0022](1)将每个单词表示作为异构图中的单词结点,将句法成分树中单词之外的其他结点作为成分结点,成分结点的表示由单词结点的表示计算获得:
[0023][0024]其中,是成分结点c
i
在成分树中其下第一单词的嵌入表示,是成分结点c
i
在成分树中其下最后一个单词的嵌入表示,是成分结点c
i
对应的成分类型的嵌入表示;
[0025](2)异构图中的边通过邻接矩阵A∈R(M+T)
×
(M+T)表示,其中,元素为0表示不相连,句法依存树和句法成分树中的边构成句法依存边和句法成分边,如果单词结点在句法成分树中位于成分结点的最左边或者最右边,则构成一条句法成分边(如图3中虚线所示);将句子的句法根与前一个和下一个句子的根连接起来构成相邻句子边;将每个单词与前一个单词和下一个单词连接起来构成相邻单词边;图的所有结点上形成自循环边。
[0026]进一步地,所述步骤S23包括:
[0027]在图卷积网络中,迭代地更新每个结点i的融合表示
[0028][0029]其中,表示图卷积神经网络第k层产生的第i个单词的融合表示,v(i)表示第i个结点的一组相邻结点,和表示结点i和结点u之间的边类型为l时第k层的参数,l的取值为0~5,f为ReLu激活函数。
[0030]进一步地,所述步骤S24中跨度表示为:其中,x
start(i)
和x
end(i)
表示跨度头尾边界的结点表示,是跨度span
i
中所有结点表示的权重和,根据注意力机制按照如下公式计算:
[0031]α
t
=FFNN
α
(x
t
)
[0032][0033][0034]其中,FFNN
α
为第一前馈神经网络,用于将每个单词的融合表示x
t
映射成非标准的注意力分数。
[0035]进一步地,在步骤S25中,获取先行词的步骤包括:
[0036]对于跨度span
i
,选取其前面的第j个跨度span
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于共指消歧的文档级事件抽取方法,其特征在于,所述方法包括:S1、对于输入的文档,通过命名实体识别获取文档中的所有命名实体,组成命名实体集合;S2、对于输入的文档,通过共指消歧方法获取若干共指实体集合;S3、利用命名实体集合、句子交互和共指实体集合,将文档转化成以句子为结点的同构图;S4、提取句子内部的特征,获得句子结点s
i
的特征向量v
i
;S5、在同构图上对每个句子结点的特征向量使用注意力机制,将具有相似语义或主题的句子集合在一起,生成句子团体;S6、对句子团体进行分类,获得事件类型,确定论元角色和论元。2.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:S21、对文档中的每个句子进行分词处理,然后编码生成单词表示;S22、利用句法依存树和成分树为文档构建基于单词和成分的异构图;S23、将异构图输入卷积神经网络,获得融合局部句法信息和全局的文档特征的单词的融合表示;S24、根据单词的融合表示,得到文档的所有跨度表示;S25、枚举每个跨度表示,根据共指得分得到当前跨度表示对应的先行词,将表示同一事物的实体划分在一起,得到共指实体集合序列。3.根据权利要求2所述的方法,其特征在于,所述步骤S22构建异构图的步骤包括:(1)将每个单词表示作为异构图中的单词结点,将句法成分树中单词之外的其他结点作为成分结点,成分结点的表示由单词结点的表示计算获得:其中,是成分结点c
i
在成分树中其下第一单词的嵌入表示,是成分结点c
i
在成分树中其下最后一个单词的嵌入表示,是成分结点c
i
对应的成分类型的嵌入表示;(2)异构图中的边通过邻接矩阵A∈R
(M+T)
×
(M+T)
表示,其中,元素为0表示不相连,句法依存树和句法成分树中的边构成句法依存边和句法成分边,如果单词结点在句法成分树中位于成分结点的最左边或者最右边,则构成一条句法成分边(如图3中虚线所示);将句子的句法根与前一个和下一个句子的根连接起来构成相邻句子边;将每个单词与前一个单词和下一个单词连接起来构成相邻单词边;图的所有结点上形成自循环边。4.根据权利要求2所述的方法,其特征在于,所述步骤S23包括:在图卷积网络中,迭代地更新每个结点i的融合表示在图卷积网络中,迭代地更新每个结点i的融合表示其中,表示图卷积神经网络第k层产生的第i个单词的融合表示,v(i)表示第i个结点的一组相邻结点,和表示结点i和结点u之间的边类型为l时第k层的参数,l的取值为0~5,f为ReLu激活函数。
5.根据权利要求2所述的方法,其特征在于,所述步骤S24中跨度表示为:其中,x
start(i)
和x
end(i)
表示跨度头尾边界的结点表示,是跨度span
i
中所有结点表示的权重和,根据注意力机制按照如下公式计算:α
t
=FFNN
α
(x
t
))其中,FFNN
α
为第一前馈神经网络,用于将每个单词的融合表示x
t
映射成非标准的注意力分数。6.根据权利要求2所述的方法,其特征在于,在步骤S25中,获取先行词的步骤包括:对于跨度span
i
,选取其前面的第j个跨度span
j
,计算两个跨度的共指得分s(i,j),公式如下:s
m
(i)=FFNN
m
(g
i
)s(i,j)=s
m
(i)+s
m
(j)+s
a
(i,j)其中,FFNN
sa
为第二前馈神经网络,
°
表示向量对位相乘操作,s
m
(i)表示跨度i为一个实体提及的得分,FFNN
m
为第三前馈神经网络。7.根据权利要求1所述的方法,其特征在于,所述步骤S4包括:S40、对于同构图中第i个结点对应的s
i
,判断其包含的所有命名实体,命名实体的个数记为l;S41、对第i个句子s
i
进行特征编码,采用BERT编码得到最后一层的嵌入矩阵B
i
,对嵌入矩阵进行最大池化操作(池化为现有技术,不再赘述)。第i个句子s
i
中包含的第t个实体的特征编码为:e
t
=maxpool(B
i,j
,B
i,j+1
,

,B
i,k
)其中,j和k是实体t的首尾单词在句子s
i
中的位置,重复该操作,得到句子s
i
中所有实体的特征编码e1,e...

【专利技术属性】
技术研发人员:孙新李帆姜景虎
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1