【技术实现步骤摘要】
一种基于共指消歧的文档级事件抽取方法
[0001]本专利技术涉及自然语言处理和深度学习
,特别涉及一种基于共指消歧的文档级事件抽取方法。
技术介绍
[0002]作为信息抽取的重要组成部分,事件抽取技术是一种快速理解事件本质内容的关键技术。事件本身是一类特定的信息形式,指在特定的时间、特定的地点发生的某件事,涉及到一个或多个参与者,并且参与者在事件中扮演着不同角色。事件抽取技术旨在将此类信息从非结构化的自然文本中提取出,并组装成结构化形式的知识,具体定义为根据预先指定的事件类型和论元角色,识别给定自然语言句子中所有目标事件类型的事件,并抽取事件所对应的论元(即在事件中充当某些角色的实体)。例如:“王小明生于2022年9月27日,江苏南京人。”这个句子包含的事件对应的事件类型是出生,该事件类型包含的论元角色有姓名、出生日期和出生地点,该句子中与上述论元角色对应的论元分别是“王小明”、“2022年9月27日”和“江苏南京”。
[0003]按照数据粒度,事件抽取可以分为句子级和文档级。相比单个句子,文档级事件抽取更符合直觉,但相应地,难度也更高。文档级事件抽取面临的主要挑战有:一个事件的论元可能分散在文档的多个句子中;文档中混合了多个不同的事件,需要对其进行区分,并为不同的事件识别相应的论元。
[0004]为了解决上述挑战,一方面,针对先前数据集DCFEE中一篇文档只有一个关键事件,而且不能有效地解决论元分散的问题,Zheng等人提出新的数据集ChFinAnn,此数据集是原来的10倍,其中大约30%的文 ...
【技术保护点】
【技术特征摘要】
1.一种基于共指消歧的文档级事件抽取方法,其特征在于,所述方法包括:S1、对于输入的文档,通过命名实体识别获取文档中的所有命名实体,组成命名实体集合;S2、对于输入的文档,通过共指消歧方法获取若干共指实体集合;S3、利用命名实体集合、句子交互和共指实体集合,将文档转化成以句子为结点的同构图;S4、提取句子内部的特征,获得句子结点s
i
的特征向量v
i
;S5、在同构图上对每个句子结点的特征向量使用注意力机制,将具有相似语义或主题的句子集合在一起,生成句子团体;S6、对句子团体进行分类,获得事件类型,确定论元角色和论元。2.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:S21、对文档中的每个句子进行分词处理,然后编码生成单词表示;S22、利用句法依存树和成分树为文档构建基于单词和成分的异构图;S23、将异构图输入卷积神经网络,获得融合局部句法信息和全局的文档特征的单词的融合表示;S24、根据单词的融合表示,得到文档的所有跨度表示;S25、枚举每个跨度表示,根据共指得分得到当前跨度表示对应的先行词,将表示同一事物的实体划分在一起,得到共指实体集合序列。3.根据权利要求2所述的方法,其特征在于,所述步骤S22构建异构图的步骤包括:(1)将每个单词表示作为异构图中的单词结点,将句法成分树中单词之外的其他结点作为成分结点,成分结点的表示由单词结点的表示计算获得:其中,是成分结点c
i
在成分树中其下第一单词的嵌入表示,是成分结点c
i
在成分树中其下最后一个单词的嵌入表示,是成分结点c
i
对应的成分类型的嵌入表示;(2)异构图中的边通过邻接矩阵A∈R
(M+T)
×
(M+T)
表示,其中,元素为0表示不相连,句法依存树和句法成分树中的边构成句法依存边和句法成分边,如果单词结点在句法成分树中位于成分结点的最左边或者最右边,则构成一条句法成分边(如图3中虚线所示);将句子的句法根与前一个和下一个句子的根连接起来构成相邻句子边;将每个单词与前一个单词和下一个单词连接起来构成相邻单词边;图的所有结点上形成自循环边。4.根据权利要求2所述的方法,其特征在于,所述步骤S23包括:在图卷积网络中,迭代地更新每个结点i的融合表示在图卷积网络中,迭代地更新每个结点i的融合表示其中,表示图卷积神经网络第k层产生的第i个单词的融合表示,v(i)表示第i个结点的一组相邻结点,和表示结点i和结点u之间的边类型为l时第k层的参数,l的取值为0~5,f为ReLu激活函数。
5.根据权利要求2所述的方法,其特征在于,所述步骤S24中跨度表示为:其中,x
start(i)
和x
end(i)
表示跨度头尾边界的结点表示,是跨度span
i
中所有结点表示的权重和,根据注意力机制按照如下公式计算:α
t
=FFNN
α
(x
t
))其中,FFNN
α
为第一前馈神经网络,用于将每个单词的融合表示x
t
映射成非标准的注意力分数。6.根据权利要求2所述的方法,其特征在于,在步骤S25中,获取先行词的步骤包括:对于跨度span
i
,选取其前面的第j个跨度span
j
,计算两个跨度的共指得分s(i,j),公式如下:s
m
(i)=FFNN
m
(g
i
)s(i,j)=s
m
(i)+s
m
(j)+s
a
(i,j)其中,FFNN
sa
为第二前馈神经网络,
°
表示向量对位相乘操作,s
m
(i)表示跨度i为一个实体提及的得分,FFNN
m
为第三前馈神经网络。7.根据权利要求1所述的方法,其特征在于,所述步骤S4包括:S40、对于同构图中第i个结点对应的s
i
,判断其包含的所有命名实体,命名实体的个数记为l;S41、对第i个句子s
i
进行特征编码,采用BERT编码得到最后一层的嵌入矩阵B
i
,对嵌入矩阵进行最大池化操作(池化为现有技术,不再赘述)。第i个句子s
i
中包含的第t个实体的特征编码为:e
t
=maxpool(B
i,j
,B
i,j+1
,
…
,B
i,k
)其中,j和k是实体t的首尾单词在句子s
i
中的位置,重复该操作,得到句子s
i
中所有实体的特征编码e1,e...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。