当前位置: 首页 > 专利查询>山西大学专利>正文

基于框架语义映射和类型感知的篇章事件抽取方法及系统技术方案

技术编号:35194435 阅读:30 留言:0更新日期:2022-10-12 18:21
本发明专利技术涉及知识图谱和自然语言处理领域,公开了一种基于框架语义映射和类型感知的篇章事件抽取方法及系统。系统包括编码器模块、事件检测模块以及论元识别模块。方法中框架语义映射是在事件检测模块中将汉语框架网(Chinese FrameNet,CFN)与篇章事件进行映射,同时在文本输入阶段对篇章进行滑窗机制的文本切分并融入触发词释义信息,从而改善了篇章事件抽取中的数据稀疏问题;而类型感知则是在论元识别模块中通过事件类型标签对篇章多事件进行分离,将篇章多事件转化为多个单事件,缓解了多值论元耦合问题,最后本发明专利技术将事件检测与论元识别两个模块的输出标签进行整合,形成完整的事件表示,在中文篇章事件抽取相关数据集上取得了良好的效果。据集上取得了良好的效果。据集上取得了良好的效果。

【技术实现步骤摘要】
基于框架语义映射和类型感知的篇章事件抽取方法及系统


[0001]本专利技术涉及知识图谱和自然语言处理领域,具体为一种基于框架语义映射和类型感知的篇章事件抽取方法及系统。

技术介绍

[0002]篇章事件抽取(Document Event Extraction,DEE)是信息抽取(Information Extraction)中的一个重要研究方向,旨在从非结构化文本中抽取结构化事件类型和事件要素。DEE是舆情监控和金融领域的重要任务之一,事件也是知识图谱(Knowledge Graph)的重要组成部分,事件抽取对于图谱推理和事件分析至关重要。
[0003]DEE包含事件检测和论元识别两部分,其任务难点主要在于文本的复杂性和事件结构的复杂性。文本的复杂性体现在输入文本为篇章,这使得输入文本受限的模型需要在考虑篇章全局信息的情况下进行数据预处理;事件结构的复杂性体现在篇章中包含多事件,不同事件之间互有重叠,较单一事件抽取难度更大。
[0004]分析主流的篇章事件抽取数据集发现,DEE任务面临的挑战主要体现在两个方面:1)篇章数据稀疏。现有数据集人工标注难度较大,导致篇章中各事件类型呈现长尾分布;2)篇章包含多事件。同一论元分布于不同事件中,存在多值论元耦合现象,也即论元重叠。因此本文探索引入汉语框架网(Chinese FrameNet,CFN)与事件建立一定的映射以改善数据稀疏问题,融合事件类型信息和篇章全局信息缓解多值论元耦合问题。
[0005]基于深度学习的事件抽取方法避免了人工设计特征的繁琐工作,使用具有丰富语言特征的词向量作为输入,以减少由底层NLP工具引起的错误。通过引入预训练模型,在一定程度上丰富了文本语义表示,但针对中文篇章事件检测任务,现阶段并未考虑引入外部知识提升其性能,同时将事件检测和论元识别任务孤立地完成,缺少信息间的交互。已有大多数篇章事件抽取方法使用深度学习和联合学习进行特征交互,通过图构建的方式捕获事件类型与论元之间的交互,避免了错误传播,但是针对篇章事件中多值论元耦合的问题并不能有效的解决。
[0006]事实上,事件检测和论元识别两阶段的上下文表示本质上捕获了不同的信息,然而联合抽取方式共享两者的模型结构和参数,因此会影响事件抽取整体性能。本文采用Pipeline抽取方式,相比于大多数Pipeline模型,更加注重事件类型与论元的交互。在事件检测阶段,引入框架语义映射,将CFN相关事件句作为外部数据在一定程度上改善了事件稀疏问题;在论元识别阶段,设计了基于类型感知的多事件分离策略,在一定程度上缓解了多值论元耦合问题。

技术实现思路

[0007]针对上述问题本专利技术提供了一种基于框架语义映射和类型感知的篇章事件抽取方法及系统,该方法及系统是基于框架语义映射和类型感知的篇章事件抽取,其中,框架语义映射是在事件检测阶段,通过建立CFN与篇章事件的映射,同时融入触发词释义信息和经
过滑动窗口处理后的文本片段,从而改善了篇章事件抽取中的数据稀疏问题;而类型感知标签则是在论元识别阶段通过事件类型标签对篇章多事件进行分离,从而将篇章多事件转化为多个单事件,进一步缓解了多值论元耦合问题。最后本专利技术将事件检测与论元识别两个阶段进行联合优化,在中文篇章事件抽取相关数据集上取得了良好的效果。
[0008]为了达到上述目的,本专利技术采用了下列技术方案:
[0009]第一方面,本专利技术提供一种基于框架语义映射和类型感知的篇章事件抽取方法,包括以下步骤:
[0010]步骤1:通过编码器模块的编码器对事件检测模块和论元识别模块的文本分别进行编码,得到篇章片段、触发词释义信息以及事件类型标签中每个字或词的向量表示;
[0011]步骤2:在事件检测模块中针对篇章事件数据稀疏问题,建立了CFN框架与中文事件的两级映射,进而融合篇章触发词释义信息和CFN相关事件句对预先定义的事件类型进行预测;
[0012]步骤3:在论元识别模块中针对多值论元耦合问题,建立了基于类型标签感知的多事件分离器,通过预先定义的事件论元角色对文本中的论元进行预测;
[0013]步骤4,将事件检测模块预测的全部事件类型标签与论元识别模块预测的所有论元标签进行拼接,即完成最终的篇章事件抽取。
[0014]进一步,所述步骤1的具体操作为:采用预训练语言模型BERT

Fin作为编码器,对事件检测模块和论元识别模块的文本分别进行编码;
[0015]其中,对事件检测模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,c
i
}作为事件检测任务的一次输入,c
i
表示文本片段中的第i个字符;同时为了增强触发词对事件类型的语义理解,将其汉语释义信息t={t1,t2,...,t
j
}拼接到文本片段的触发词之后,共同作为文本的输入,t
j
表示触发词释义中的第j个字符,计算公式如下所示:
[0016]s1=[CLS]+s+[SEP]+t+[SEP][0017]s
′1=Bert

FinEncoder(s1)
[0018]其中,s1表示事件检测模型的输入,[CLS]表示开始位置,[SEP]表示分隔符;s
′1={c1,c2,...,c
len
},s
′1∈R
len
×
d
,len表示文本片段与释义信息的总长度,d为隐层维度;
[0019]对论元识别模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,c
i
}作为论元识别任务的一次输入,c
i
表示文本片段中的的第i个字符;将事件检测阶段预测的每个事件类型标签e={e1,e2,...,e
j
}分别与输入文本片段进行拼接共同作为模型输入特征,e
j
表示当前事件类型的第j个字符,计算公式如下所示:
[0020]s2=[CLS]+s+[SEP]+e+[SEP][0021]s
′2=Bert

FinEncoder(s2)
[0022]其中,s2表示论元识别模型的输入,s
′2={c1,c2,...,c
len
},s
′2∈R
len
×
d
,len表示文本片段与类型标签的总长度,d为隐层维度。
[0023]进一步,所述步骤2包括CFN框架与中文事件映射和序列建模两部分;具体操作为:
[0024](1)CFN框架与中文事件映射:将篇章事件与CFN框架映射后的相关事件句、触发词释义以及滑动窗口的文本片段通过编码器模块得到片段和触发词释义的向量s
′1,为了进
一步增强篇章中的长实体信息的表示,在预训练模型之后加入bi_l本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于框架语义映射和类型感知的篇章事件抽取方法,其特征在于:包括以下步骤:步骤1:通过编码器模块对事件检测模块和论元识别模块的文本分别进行编码,得到篇章片段、触发词释义信息以及事件类型标签中每个字或词的向量表示;步骤2:在事件检测模块中针对篇章事件数据稀疏问题,建立了CFN框架与中文事件的两级映射,进而融合篇章触发词释义信息和CFN相关事件句对预先定义的事件类型进行预测;步骤3:在论元识别模块中针对多值论元耦合问题,建立了基于类型标签感知的多事件分离器,通过预先定义的事件论元角色对文本中的论元进行预测;步骤4,将事件检测模块预测的全部事件类型标签与论元识别模块预测的所有论元标签进行拼接,即完成最终的篇章事件抽取。2.根据权利要求1所述的一种基于框架语义映射和类型感知的篇章事件抽取方法,其特征在于:所述步骤1的具体操作为:采用预训练语言模型BERT

Fin作为编码器,对事件检测模块和论元识别模块的文本分别进行编码;其中,对事件检测模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,c
i
}作为事件检测任务的一次输入,c
i
表示文本片段中的第i个字符;同时为了增强触发词对事件类型的语义理解,将其汉语释义信息t={t1,t2,...,t
j
}拼接到文本片段的触发词之后,共同作为文本的输入,t
j
表示触发词释义中的第j个字符,计算公式如下所示:s1=[CLS]+s+[SEP]+t+[SEP]s1′
=Bert

FinEncoder(s1)其中,s1表示事件检测模型的输入,[CLS]表示开始位置,[SEP]表示分隔符;s1′
={c1,c2,...,c
len
},s1′
∈R
len
×
d
,len表示文本片段与释义信息的总长度,d为隐层维度;对论元识别模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,c
i
}作为论元识别任务的一次输入,c
i
表示文本片段中的的第i个字符;将事件检测阶段预测的每个事件类型标签e={e1,e2,...,e
j
}分别与输入文本片段进行拼接共同作为模型输入特征,e
j
表示当前事件类型的第j个字符,计算公式如下所示:s2=[CLS]+s+[SEP]+e+[SEP]s
′2=Bert

FinEncoder(s2)其中,s2表示论元识别模型的输入,s
′2={c1,c2,...,c
len
},s
′2∈R
len
×
d
,len表示文本片段与类型标签的总长度,d为隐层维度。3.根据权利要求1所述的一种基于框架语义映射和类型感知的篇章事件抽取方法,其特征在于:所述步骤2包括CFN框架与中文事件映射和序列建模两部分;具体操作为:(1)CFN框架与中文事件映射:将篇章事件与CFN框架映射后的相关事件句、触发词释义以及滑动窗口的文本片段通过编码器模块得到片段和触发词释义的向量s1′
,为了进一步增强篇章中的长实体信息的表示,在预训练模型之后加入bi_lstm进一步增强其语义表示,具体计算过程见如下公式所示:h=bi_lstm(s1′
)
h表示隐层向量,包含前向向量和后向向量,经过向量拼接作为下一层的输入I;(2)序列建模:在解码阶段,将隐层输出作为CRF发射概率,CRF层转移概率矩阵A
i,j
表示从第i个标签tag
i
到第j个标签tag
j
的转移得分,因此对于已知的输入序列s1′
={c1,c2,...,c
len
}对应的输出标签结果为y
e
=(y1,y2,...,y
n
),定义当前序列得分的计算如...

【专利技术属性】
技术研发人员:李茹卢江梁吉业谭红叶王智强
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1